perlexのバグ情報

Perlexは何度もこのページで紹介しているが,要は形態素辞書.しかし,よくよく調べてみると,不可解な現象がいくつも発生していた. 例えば,以下 anga¹tn 108 V [pred="anga¹tn_____1",cat=V,@2*3plPreparfFam] anga¹tn_____1 Default 2*3p…

ペルシア語の現在語根3人称複数人称における口語化現象

他の言語でもあるように,ペルシア語にも口語と文語で違う箇所は多く存在する.今回は,動詞の現在分詞における3人称複数人称について注目してみる.3人称複数の現在分詞の動詞接尾辞は,文語では-nd.なので,動詞構成はroot+ndになる.ところが,口語で…

係り受け解析の転移学習

まずはサーベイ資料

acute accentの処理

世の中にはacute accentという文字があるそうだ. Charbase U+00B4: ACUTE ACCENTアポストロフィーに形が似ているが,その実体はラテン系の言語に使用するアクセント記号である.Latin-1 supplemetの文字セットの中に含まれている.ところで,acute accentを…

Pythonのxmlパーザ minidom

以前に,xmlからデータの抽出を行う xml.dom.minidom - kensuke-miの日記で,自分で書いたにもかかわらず,また忘れていたので,今回はもう少し書く.あるコーパスがあって,xmlで保存されているのだが,いろいろと扱いづらい(タグが日本語で記述されている…

xmlの整形

例えば,すべてが一行でつながってしまっているxmlがあったとする. でも,そのままではlessコマンドが使えなかったりと,とんでもなく扱いづらい.そこで,使うのが $ xmllint --format <XML>ここから XML を整形して表示 - kameidの備忘録 - Sharpen the Saw!も</xml>…

perlexを読み解く

Perlexはペルシア語向けに作成された語彙辞書システムのことである. Alexinaという語彙辞書フレームワークの上に構築されており,2013年現在では,間違いなく無料で使用できる最大の言語資源である.しかし,このperlexの最大の欠点は,「説明がないこと」…

ペルシア語の形態素解析器を作る話

タイトルの内容について,1ヶ月近く取り組んでみたので,そろそろ書いてみる.そもそも目的は,「口承文芸コーパス」というペルシア語の口承(口伝えのお話)話を記録するという既存のコーパスがあって,それに言語情報をつけていく.が目標で,どうして形…

Foma ~finite-state compiler and C library~

ちょっと前から自分の研究内容にFomaというFST構築ツールを使っている.何をするのか?というと,要は「FSTネットワークを作ってくれますよ」 以上! 何に使うかと言うと,代表例「形態素形跡」 以上!で,すめば良いのだが,Foma scriptというのを定義しな…

bashコマンドラインで複数のファイルに処理を実行

複数のファイルに同じ処理を実行したい時は,基本的にbashスクリプトを書けばいい. が,「複数ファイルの拡張子を一括変更」程度では,いちいちスクリプトを書くのは手間すぎる.で,コマンドライン上でその程度の変更ができるのを確かめてみた. buttercup…

Pythonスクリプト内でbashコマンドを呼び出す

方法はcommandモジュールを使うか,subprocessモジュールを使うか?という選択肢があるようだ.で,commandモジュールには前に失敗した記憶があるので(自分が悪い),どっちかというとsubprocessを好んでいる.使い方は,importして import subprocesssubpr…

git rmせずにrmコマンドで削除してしまったファイルを一括で削除する方法

例えば,「ディレクトリの中身が散らかっていたので,整理しよう.」と整理した場合.つまり複数のファイルを移動させた場合.整理後にgit add . を行った場合に # Changes not staged for commit:のファイルが大量発生してしまう.こういう時に,一括で元の…

時系列データの解析

R

自然言語処理の世界では「時系列データ」というと,HMMモデルのようなイメージがある(主観).品詞が隠れ状態で,単語が観測状態になっており,文中の単語のインデックスと共に「時間が経過していく」という格好だ.ただ,一般的に「時系列データ」というと…

xmlからデータの抽出を行う xml.dom.minidom

基本的な追加方は19.7. xml.dom.minidom — 軽量な DOM 実装 — Python 2.7ja1 documentationを見ればわかることなのが.ただ,ちょっとわかりにくいので,Python で XML 操作 | TM Lifeを見た方がよい.ところで,「コメントのみを記述したxmlノードを抽出す…

CKYアルゴリズムの流れ

久しぶりにCKYチャートをいじることになって,「あれ,どことどこのマスが親を生成するんだっけ?」と,まあ,こうなってしまう.そこで,ちょっと探してみると,Yahoo知恵袋にこんな良解説がなされていたので,紹介.構文解析:CYKアルゴリズム 情報 数学 …

subcategorizationの概念

"The Lefff, a freely available and large-coverage morphological and syntactic lexicon for French", Benoît Sagot, 2010 を読んでいるときに出て来たのが"sub categorization"あれ,これ何だっけ?と思ったので復習がてらに[この本](http://www.amazon.…

拡張ラテン文字(latin-1)の入力方法(Ubuntu系)

前回はMac OSXでの入力方法について触れたが,ぼくはubuntuマシンも持っている関係上,ubuntuでもlatin-1が入力できるようにしないといけない.そこで,調べてみると.ubuntuではOSXのようにopt+aのような入力方法ではなく,補助インプットメソッドのiBusを…

拡張ラテン文字キーボードの使い方

ペルシア文字の翻字方法の検討 - kensuke-miの日記でも紹介したが,アラビア文字を計算機で効率的に扱うためにはラテン文字に置き換えてしまった方がよい. そこで,今回のぼくのアラビア文字→ラテン文字変換スクリプトの実装には多くのラテン文字を用いた.…

ペルシア文字の翻字方法の検討

計算機でアラビア文字を扱うのは正直いうとしんどい.文字が全体的に見にくいし,母音記号はハムゼは拡大しまくってやっと存在が見つかる.といったそんな印象. 見にくいと何が困るかって,目には見えてないけど,違う文字コードの系列になっていたら計算機…

ペルシア語の文字入力

誰得な内容ですが..ペルシア語を正しくコンピューターで扱う話.これがきちっと守れないと,「検索した単語が出てこない!」とか「レポート書いたけど,間違いだらけじゃないか!」という原因になるので,きちっと守りましょう.というお話です.実はアラ…

problem in handling Farsi ezafe characters

As you know, we concatenate words with Ezafe when two words have a relation of modifier word and modified word.But, You may not know the concatenation rule when the last character of modified word is HEH+HAMZA.In Arabic unicode set, HEH+HA…

威の飼い方2

(前回から) ヤフオクで格安ジャンク品のサブノートパソコンをHDD移植まで完了させたぼく!結果やいかに!スイッチを押してみると...そこに出ているメッセージを要約すると, 「カーネルがこのマシンのCPUに合ってないんだってば.適切なカーネルを使い…

威の飼い方

突然だけど,ぼくの手元には古いマシンがある. Interlinkいうペットネームで知られるそのマシンは,知る人ぞ知る,そんな日本Victor製造のサブノートパソコンで,画面サイズがわずか8.9インチという小ささ,まさにネットブックの先駆けとも言える存在な…

アラビア語系統の言語を扱うのに優れたエディタは?

元々ソフト事情 - Linux / オープンソースとアラビア語 at Scratchpad, the home of temporary mini-wikis!っていうサイトがいくつか情報を提供してくれていたんだけど,最終更新が06年と古い.でいまの時代により適したエディタは?ってことで色々試してみ…

Pythonでスマートなファイルの読み込み方法は?

元は http://blog.lampetty.net/blog_ja/index.php/archives/418あまり考えてなかったんだけど,どでかいファイルを扱う時はメモリの消費を抑える書き方が一番いい(特にNLPはメモリの消費がデカい場合がそれなりにある)結論からいうと,「ぼくの書き方はま…

タイトルの書き方

ちょっとだけタイトルの書き方ではまった. \title{} \author{} \date{} はプレアンプルの箇所に記述しないといけないのだが,\maketitleコマンドは本文,つまり \begin{document} \maketitle \end{document}のように記述しないといけない. http://www.late…

texコンパイル用のシェルスクリプト

レポートもようやくtexで書き始めたのだが,毎回コンパイルが面倒で仕方がない. なので,シェルスクリプトを書いた. texname=$1 platex $texname dviname=${texname/.tex/.dvi} dvipdfmx $dviname pdfname=${dviname/.dvi/.pdf} open $pdfname最後に目でみ…

mac OSのユーザー名を変更する

いろいろ理由はあるんだけど,ユーザー名を変更することになった. その時に引いたマニュアルを残しておく http://support.apple.com/kb/HT1428?viewlocale=ja_JPどうやら,一度,ルートユーザーになってホームディレクトリの名前を手動で変更しないといけな…

mac起動時からdockにあるアプリをdockから消すには

普通のやり方では消しても,次にログインするとすぐ復活する.たぶん,だけど,環境変数的なファイルが設定されているのが原因で,つまり該当箇所を削除してしまえばよい探すと http://d.hatena.ne.jp/tsurunaga/20120804/1344064017 にあった.どうやら,xm…

ギブスサンプリングの実装

長いことわかっていなかったのだが、実装してようやく頭に入って来た気がする。今回は「道具としてのベイズ統計」涌井良幸 日本実業社 の説明にあるギブスサンプリングをPythonで実装してみた。 パラメータは全部、本にある通り。 #! /usr/bin/python # -*- …