Word sense disambiguityに関するサーベイ

ペルシア語とオランダ語の単語間（クエリを利用した）翻訳をやりたくて，ちょっとサーベイしていた．
↑絶対，こんなことやろうとしている人間はこれまで１人もいないと断言できる．

で，サーベイ中に，こんなpaperを発見してしまった．

Word Sense Subjectivity for Cross-lingual Lexical Substitution
Fangzhong Su+, NAACL, 2010

タスクの設定は，「source言語側で単語とその文脈が与えられている状況で，翻訳先のtarget言語で文脈が一致するように単語を選ぶ」というもの．

ここで改善させるアイディアは，「もし，source言語側で単語がsubjectivityで利用されているなら，target言語側でも単語はsubjectivityで利用されるはずである」
もちろん，「source言語側でobjectivityなら,あとはvice versa」

じゃあ，word senseのsubjectivityとobjectivityって何だよ！？って話になるが，このpaperだけで理解するのはかなり難しいと思う．

そこで，先行研究にさかのぼってみよう．

Word Sense and Subjectivity
Janyce Wiebe+, ACL, 2006

一応，きちんと引用しておくと，Subjective expressions are words and phrases being used to express opinions, emotions, evaluations, speculations, etc. (Wiebe et al., 2005)
もう少し一般的な物言いをすると，
a state that is not open to objective obser-vation or veriﬁcation” (Quirk et al., 1985)

基本的にword senseが主観的であれば，subjectivityということになるのだが，それだけでは定義ができていない．

そこで３つの区分を導入している（これはQuirk 1985に従っているのかな？）

でもこの３つの区分の意味もよくわかってないので困ったものだ．

（ここら辺できちんとsubjectivityの解釈を理解すること）

ところで，一つ目のpaperではintroductionで

Subjectivity Word Sense Disambiguation
Cem Akkaya+, EMNLP, 2009

を良く引用している．
このpaperについて簡単に述べると，word senseにはsubjectivityとobjectivityの２種類がある．これは普通のWSD(語義曖昧性解消)では解決が難しい．そこで，SとOの２つのクラスを設けて，２値分類器を使って，分類した．分類はSVMでちゃっちゃっと．そしたら語義曖昧性解消の精度が8.4%も上がったよ！

という内容．

話がそれてしまったので，Fangzhongのpaperの内容に戻ることにする．
このpaperでやりたいことは，おさらいすると，単語間の翻訳．

3.1 task and dataset

本来ならば，辞書を用意したり．．とか必要なんだろうけど，この実験ではそこまでしていない．
用意した資源は

- senseval-2とsenseval-3のlexical sampleを中国語に人手で翻訳した文．これをgold-standardにする
- その結果，subjectivity-ambitious wordとして２８のenglish-chineseの単語ペアを用意できた
- この２８単語を含む英語文をtrainingとして2890文，testとして1444文用意した

3.2 algorithms

問題をどう解くか？というと，単語ペアごとに中国語の訳語を選択する分類器を用意する．この分類器は英語で単語を入力すると，そのoutputとして，中国語が出てくる．
少しずつ条件を変えて実験を行った．

basic system(system B)

利用した素性は

surrounding word
POS
collocation
syntactic feat.

などWSDタスクで一般的に用いられる素性．

gold-subj, auto-subj

英語側でsubjectivityかどうか？のニ値の素性を導入．
gold-subjはgoldのデータを用いた
auto-subjはSWSD(Akkaya, 09)を使い，自動獲得したsubjectivityタグを素性として用いた

gold-senseとauto-sense

英語側でword-sense dis ambiguityタスクに用いられるクラスを素性として導入．
gold-senseがgoldのデータ
auto-senseは自動獲得したデータ

結果

結果は，gold-senseの条件が一番良く，80.2%の精度だった．
でもgold-subjも77.9%だったのでそんなに悪いわけではない．
autoになると，両方とも70%程度なのでそんなに良くない（たぶん，自動獲得がミスをしている）

感想

単語間翻訳をやるので，参考になれば．．．と思いよんだが，これをやろうと思ったら，source言語側でsubjectivityかobjectivityか？のgold annotationが必要になる．
そもそも，subjectivityを理解してないし．
やろうと思えばできんこともないが，現状では無理がある．
なので，やらない．