Word sense disambiguityに関するサーベイ
ペルシア語とオランダ語の単語間(クエリを利用した)翻訳をやりたくて,ちょっとサーベイしていた.
↑絶対,こんなことやろうとしている人間はこれまで1人もいないと断言できる.
で,サーベイ中に,こんなpaperを発見してしまった.
Word Sense Subjectivity for Cross-lingual Lexical Substitution
Fangzhong Su+, NAACL, 2010
タスクの設定は,「source言語側で単語とその文脈が与えられている状況で,翻訳先のtarget言語で文脈が一致するように単語を選ぶ」というもの.
ここで改善させるアイディアは,「もし,source言語側で単語がsubjectivityで利用されているなら,target言語側でも単語はsubjectivityで利用されるはずである」
もちろん,「source言語側でobjectivityなら,あとはvice versa」
じゃあ,word senseのsubjectivityとobjectivityって何だよ!?って話になるが,このpaperだけで理解するのはかなり難しいと思う.
そこで,先行研究にさかのぼってみよう.
Word Sense and Subjectivity
Janyce Wiebe+, ACL, 2006
一応,きちんと引用しておくと,Subjective expressions are words and phrases being used to express opinions, emotions, evaluations, speculations, etc. (Wiebe et al., 2005)
もう少し一般的な物言いをすると,
a state that is not open to objective obser-vation or verification” (Quirk et al., 1985)
基本的にword senseが主観的であれば,subjectivityということになるのだが,それだけでは定義ができていない.
そこで3つの区分を導入している(これはQuirk 1985に従っているのかな?)
でもこの3つの区分の意味もよくわかってないので困ったものだ.
(ここら辺できちんとsubjectivityの解釈を理解すること)
ところで,一つ目のpaperではintroductionで
Subjectivity Word Sense Disambiguation
Cem Akkaya+, EMNLP, 2009
を良く引用している.
このpaperについて簡単に述べると,word senseにはsubjectivityとobjectivityの2種類がある.これは普通のWSD(語義曖昧性解消)では解決が難しい.そこで,SとOの2つのクラスを設けて,2値分類器を使って,分類した.分類はSVMでちゃっちゃっと.そしたら語義曖昧性解消の精度が8.4%も上がったよ!
という内容.
話がそれてしまったので,Fangzhongのpaperの内容に戻ることにする.
このpaperでやりたいことは,おさらいすると,単語間の翻訳.
3.1 task and dataset
本来ならば,辞書を用意したり..とか必要なんだろうけど,この実験ではそこまでしていない.
用意した資源は
- senseval-2とsenseval-3のlexical sampleを中国語に人手で翻訳した文.これをgold-standardにする
- その結果,subjectivity-ambitious wordとして28のenglish-chineseの単語ペアを用意できた
- この28単語を含む英語文をtrainingとして2890文,testとして1444文用意した
3.2 algorithms
問題をどう解くか?というと,単語ペアごとに中国語の訳語を選択する分類器を用意する.この分類器は英語で単語を入力すると,そのoutputとして,中国語が出てくる.
少しずつ条件を変えて実験を行った.
basic system(system B)
利用した素性は
- surrounding word
- POS
- collocation
- syntactic feat.
などWSDタスクで一般的に用いられる素性.
gold-subj, auto-subj
英語側でsubjectivityかどうか?のニ値の素性を導入.
gold-subjはgoldのデータを用いた
auto-subjはSWSD(Akkaya, 09)を使い,自動獲得したsubjectivityタグを素性として用いた
gold-senseとauto-sense
英語側でword-sense dis ambiguityタスクに用いられるクラスを素性として導入.
gold-senseがgoldのデータ
auto-senseは自動獲得したデータ
結果
結果は,gold-senseの条件が一番良く,80.2%の精度だった.
でもgold-subjも77.9%だったのでそんなに悪いわけではない.
autoになると,両方とも70%程度なのでそんなに良くない(たぶん,自動獲得がミスをしている)
感想
単語間翻訳をやるので,参考になれば...と思いよんだが,これをやろうと思ったら,source言語側でsubjectivityかobjectivityか?のgold annotationが必要になる.
そもそも,subjectivityを理解してないし.
やろうと思えばできんこともないが,現状では無理がある.
なので,やらない.