A Basic Language Resource Kit for Persian

A Basic Language Resource Kit for Persian
Mojgan Seraji, Bea ́ta Megyesi, Joakim Nivre
Uppsala University, Department of Linguistics and Philology

ざっくりまとめると、いままで数も少なく、あったとしても有料なことが多い、そんなペルシア語のツールをオープンソースで公開しようっていう取り組み。
論文の性格として、新規の手法とかサーベイでなく、彼らのプロジェクトの宣伝みたいな感じ。

ただ、２０１２年現在のペルシア語資源の貴重な情報なので、価値ある論文。

彼らのプロジェクトでは
文章正規化
文章区切り
トークン化
POSタグ付け
パージング

までを目指していて、すでにPOSタグ付けまでは実現しているとのこと。

まだツールを動かしてないけど、POSタグ付けを見る限りではちゃんと動くとは思う。
コーパスとPOSタグ付けに関しては
http://d.hatena.ne.jp/kensuke-mi/20120905/1346875427

にもメモを書いた。

２章はペルシア語の概説なので読んでいない。

３章が２０１２年現在のペルシア語資源の情報で、ここが一番重要。

特に自分が知らなかったのが、音声データベースと語彙データベースの話。

FARSDATとかOGIとか、CALLFRIEND FARSIとか、そんなのが音声データベースとして公開されているらしい。中には発音記号付きのものもあるらしいので、活用の余地は大きい。

語彙データベースにはDekhoda lexiconとPerLexが挙げられている。
論文には書いてなかったが、PerLexというのはWordNetのペルシア語版だったような気がする...

すでに開発済みのツールは
http://stp.lingfil.uu.se/~mojgan/
で公開されているので、使ってみようと思う（これから）

なんだか、いろいろ準備が大変そうな気がするが....

そういえば、ペルシア語の話者って世界中に１億人近くいるらしい。（Abstractに書いてあった）

[追記]

POSタグ付けの精度は96.9%に達するとのことで、実用的な数字ではないかと思う。
A Statistical Part-of-Speech Tagger for Persian
In Proceedings of the 18th Nordic Conference of Computational Linguistics NODALIDA 2011