Building Readability Lexicons with Unannotated Corpora - 「ヨーロッパ風のオレかっこいい」って思ってる愛知県民の日記

Building Readability Lexicons with Unannotated Corpora
Brooke, Julian et.al 2012
NACCL,Predicting and improving text readability for target reader populations

きょうのは単語の面からReadability評価に欠かせないlexiconを自動でつくっちゃう話。

○ざっくり概要

文章がどんだけムズイか？を評価するときに、「単語の難しさ」を素性に加えるのはかなり直感的にわかりやすいことだと思う。
難しい単語ばかりで構成された文章はそりゃあ難しいだろう。
けど、そのlexiconはいままで人手のものしかなくって、それじゃカバー率たんないし、効率も悪いだろう。じゃあ、自動で作っちゃおうぜ！っていう話。

ちなに既存のlexiconとして挙げられてるのは、
(Kidwell et al., 2009; Li and Feng, 2011)によるlexiconと

crowdsourced annotation(Maite Taboada, Julian Brooke, Milan Tofiloski, Kimberly Voll, and Manifred Stede. 2011. Lexicon-based meth- ods for sentiment analysis. Computational Linguis- tics, 37(2):267–307.)

の２つ。
このふたつのlexiconを使って、提案手法で自動lexiconを作る。と同時にこの２つのlexiconを使って評価もしている。

○提案手法

提案手法で使うコーパスはICWSM Spinn3r 2009 dataset (Burton et al., 2009)
提案手法では３つの素性を使っている。

１　単語そのものに注目した素性 ex. 単語の長さ、単語中のシラブルの数 etc.
２　文の中で単語の数に注目した素性 ex. 文章中の平均語長、word typeの比率 etc.
３　２つの指標ペアを仮定して比較対象単語がどっちに近いか？を考える素性 ex. (mommy, philosopy)のうちどっちがより抽象的な語か？ etc.

１と２についてはそのまま数を数えるだけなので、直感的にわかりやすい。
ちょっとわかりにくいのが３。
まず、コーパス中に特定の単語wが出現するorしない。で２値の行列を作成する。

行列をLSAによって変換する。単語wはk次元のベクトルに変換される（棒読み）。

３の例にあるような(P,N)のペアを用意して、wのベクトルがどっちに近いか？を求めてFeature value Vとする。（この時の式は、p35の最後）

ちなみに(P,N)のペアは既存のlexiconとして挙げられていた２つのlexiconから人手で作成する。

１と２と３の素性をまとめる。まとめるのはLinear combinationとSVMの２種類。
これはWEKAっていうツールを使ったそうだ。WEKA (Witten and Frank, 2005)

あまりよーわからんが、どうやら、SVMの方が悪かったらしい。

○結果

実は、評価の方法とかあまり読み込んでない。
個人的な話だが、評価のところまで来ると「まっ、いっか」って飛ばしてしまうウルトラ悪い癖があるからだ。

いつかは直すつもりだが、今回は直してないので、結果だけ述べると、

すべて素性を使って、かつ、素性をLinearでまとめて作った提案手法のlexiconは次のような一致率を出した。

難しさlexiconとの一致率 87.6%
crowdsourcedとの一致率 79.5%

で、これが最高精度だよーん。と述べている。

○結論

ICWSM 2009コーパスの単語を使って提案手法で新しくlexicon作ったよ。

メインの素性はterm frequencyだけど、もっと複雑な素性を組み合わせたら、人手のlexiconに匹敵するくらいの出来になったよ。キラッ☆

○その他

そもそもcrowd sourced annotationなるものを初めてきいたが、「web上で多くの人によってアノーテートされたlexicon」と理解した（特に根拠なし）
これについては
Maite Taboada, Julian Brooke, Milan Tofiloski, Kimberly Voll, and Manifred Stede. 2011. Lexicon-based meth- ods for sentiment analysis. Computational Linguis- tics, 37(2):267–307.

を読まなくちゃあいけないなあ（いつか）

あと、個人的に気になったのが
Kumiko Tanaka-Ishii, Satoshi Tezuka, and Hiroshi Ter- ada. 2010. Sorting texts by readability. Computa- tional Linguistics, 36(2):203–227.
で、何かシステムを作ったらしい（とRelated workに書いてあった）

実は、この論文中でよくわかってないのがひとつ。
素性をまとめてました。
で、まとめて素性を使って、どういうlexiconを作ったの？
(単語,難易度)のペアのlexicon？なの？
だとしたら、（難易度）のラベルはどっかから来るの？

というかなり致命的なことがわかってなかったりします。

評価をあんまり読まない癖はそろそろやめようと思いました。