Word sense disambiguityに関するサーベイ

ペルシア語とオランダ語の単語間(クエリを利用した)翻訳をやりたくて,ちょっとサーベイしていた.
↑絶対,こんなことやろうとしている人間はこれまで1人もいないと断言できる.

で,サーベイ中に,こんなpaperを発見してしまった.

Word Sense Subjectivity for Cross-lingual Lexical Substitution
Fangzhong Su+, NAACL, 2010


タスクの設定は,「source言語側で単語とその文脈が与えられている状況で,翻訳先のtarget言語で文脈が一致するように単語を選ぶ」というもの.

ここで改善させるアイディアは,「もし,source言語側で単語がsubjectivityで利用されているなら,target言語側でも単語はsubjectivityで利用されるはずである」
もちろん,「source言語側でobjectivityなら,あとはvice versa」

じゃあ,word senseのsubjectivityとobjectivityって何だよ!?って話になるが,このpaperだけで理解するのはかなり難しいと思う.

そこで,先行研究にさかのぼってみよう.

Word Sense and Subjectivity
Janyce Wiebe+, ACL, 2006

一応,きちんと引用しておくと,Subjective expressions are words and phrases being used to express opinions, emotions, evaluations, speculations, etc. (Wiebe et al., 2005)
もう少し一般的な物言いをすると,
a state that is not open to objective obser-vation or verification” (Quirk et al., 1985)

基本的にword senseが主観的であれば,subjectivityということになるのだが,それだけでは定義ができていない.

そこで3つの区分を導入している(これはQuirk 1985に従っているのかな?)

でもこの3つの区分の意味もよくわかってないので困ったものだ.

(ここら辺できちんとsubjectivityの解釈を理解すること)


ところで,一つ目のpaperではintroductionで

Subjectivity Word Sense Disambiguation
Cem Akkaya+, EMNLP, 2009

を良く引用している.
このpaperについて簡単に述べると,word senseにはsubjectivityとobjectivityの2種類がある.これは普通のWSD(語義曖昧性解消)では解決が難しい.そこで,SとOの2つのクラスを設けて,2値分類器を使って,分類した.分類はSVMでちゃっちゃっと.そしたら語義曖昧性解消の精度が8.4%も上がったよ!

という内容.


話がそれてしまったので,Fangzhongのpaperの内容に戻ることにする.
このpaperでやりたいことは,おさらいすると,単語間の翻訳.

3.1 task and dataset

本来ならば,辞書を用意したり..とか必要なんだろうけど,この実験ではそこまでしていない.
用意した資源は


- senseval-2とsenseval-3のlexical sampleを中国語に人手で翻訳した文.これをgold-standardにする
- その結果,subjectivity-ambitious wordとして28のenglish-chineseの単語ペアを用意できた
- この28単語を含む英語文をtrainingとして2890文,testとして1444文用意した


3.2 algorithms

問題をどう解くか?というと,単語ペアごとに中国語の訳語を選択する分類器を用意する.この分類器は英語で単語を入力すると,そのoutputとして,中国語が出てくる.
少しずつ条件を変えて実験を行った.

basic system(system B)

利用した素性は

  • surrounding word
  • POS
  • collocation
  • syntactic feat.

などWSDタスクで一般的に用いられる素性.

gold-subj, auto-subj

英語側でsubjectivityかどうか?のニ値の素性を導入.
gold-subjはgoldのデータを用いた
auto-subjはSWSD(Akkaya, 09)を使い,自動獲得したsubjectivityタグを素性として用いた


gold-senseとauto-sense

英語側でword-sense dis ambiguityタスクに用いられるクラスを素性として導入.
gold-senseがgoldのデータ
auto-senseは自動獲得したデータ



結果

結果は,gold-senseの条件が一番良く,80.2%の精度だった.
でもgold-subjも77.9%だったのでそんなに悪いわけではない.
autoになると,両方とも70%程度なのでそんなに良くない(たぶん,自動獲得がミスをしている)

感想

単語間翻訳をやるので,参考になれば...と思いよんだが,これをやろうと思ったら,source言語側でsubjectivityかobjectivityか?のgold annotationが必要になる.
そもそも,subjectivityを理解してないし.
やろうと思えばできんこともないが,現状では無理がある.
なので,やらない.