Unsupervised Identification of Persian Compound Verbs
Unsupervised Identification of Persian Compound Verbs
Mohammad Sadegh Rasooli and Heshaam Faili and Behrouz Minaei-Bidgoli
MICAI (1)'11
○ざっくり概要
「ペルシア語の複合動詞を検出しよう」というタスク
使った手法はBootstrapとK-menas法
いろいろ試したらPrec. 87.77 Rec. 71.33 F 78.70
という結果が出た。
特に書いてなかったけど、採択されているからにはState-of-the-artだったりするんだろう
○このタスクで難しい点
そもそもペルシア語で信頼に耐えるデータが僅かしかない。2011年時点ではBijankhan corpusにPOSとちょっぴりの形態素統語構造があり、人手作成の複合動詞辞書があるが信頼に耐えないとこきおろされている。
(こきおろされた内容は
Family,N.:ExplorationsofSemanticSpace:TheCaseofLightVerbConstructionsinPer- sian. In: Ecole des Hautes Etudes en Sciences Sociales, Paris, France (2006)
に書いてあるはず)
難しいこと2つ目は、ペルシア語の複合動詞はとんどもないぐらいに離れたところに語が出現すること。
例えば、あがっている例文だと
من با تو صحبتهای بسیار زیادی در مورده جنگ ایران و ارق کردم.
man ba to sohbat-ha-ye ziyadi dar morede jang-e iran va eraq kardam
でsohbat-ha-ye と kardamが複合動詞に該当する。
個人的な経験だともっと離れた位置に出現することもあって、もはやMWEなのかよくわからないケースも存在したが、意味的にひとつならMWEなのだろう。
こういう風にMWEのくせにやたら離れるところもまたペルシア語の難しいところ。として挙げられている。
○どうやって対処するか?
BootstrapにPPMIの尺度を利用した...ってPPMIってなんやねーん!
って話ではあるが、PPMIはPMIの拡張版....PMIってなんやねーん!
PMIとはpointwise mutual informationのことでその意味は『ターゲットフレーズと「類似単語を持つフレーズ中にある単語のうちひとつを置き換えたことによって得られるフレーズ」の相互情報量。が、大きく違う時にターゲットはNon-compositionalだと判断する』らしい....
いやはや、勉強不足。
結局、PMIがどういう働きをしているのかよくわからず、つまりBootstrapの基準もよくわかわずじまいだった。
http://d.hatena.ne.jp/usata3/20080529/p1
http://d.hatena.ne.jp/n_shuyo/20101006/pmi
を見たら、「pointwise mutual information というのは2つの要素の間の共起を測る尺度の一つ」と書いてあった。うーむ、わかりやすい。
K-meansでクラスタリングは、クラスタリングして、複合動詞かどうか判定ってことだと思う。
素性に使ったのが、PMIとPPMIと複合動詞の名詞と動詞の間にある平均語数。
で、これでクラスタリングを繰り返し行い(回数は手動設定)、最終的にクラスタに人手タグ付けをしましたと書いてあります(棒読み)
○結果など
結果的に一番よかったのが、PMIとPPMIの両方を使ったブートストラップだったとのこと。F値が78.70
ちなみにprecisionが一番よかったのが、PMIだけを利用したブートストラップで90.17だったとのこと。
○その他
なんだか新しい略語が多いペーパーだなと思った。
LVCとかVNCとかなんか書いてあるけど、MWEの用語なんだろうか。。?
あんまりイメージがわかなかった。
related workにKE アルゴリズムやLSA、LDAが類似度の尺度として挙げられていてちょっとだけわくわくした。結局、いっさい使われてなかったけど。
ところで、このペーパーが採択された会議はMICAIというのだが、正式名称は
Mexican International Conference on Artificial Intelligence
....メキシコだったのか!?
そしてトップページのデザインが....スターウォーズ...??
http://www.micai.org
マイナー自然言語処理にはこういうのはつきものです。