Building Readability Lexicons with Unannotated Corpora

Building Readability Lexicons with Unannotated Corpora
Brooke, Julian et.al 2012
NACCL,Predicting and improving text readability for target reader populations

きょうのは単語の面からReadability評価に欠かせないlexiconを自動でつくっちゃう話。

○ざっくり概要

文章がどんだけムズイか?を評価するときに、「単語の難しさ」を素性に加えるのはかなり直感的にわかりやすいことだと思う。
難しい単語ばかりで構成された文章はそりゃあ難しいだろう。
けど、そのlexiconはいままで人手のものしかなくって、それじゃカバー率たんないし、効率も悪いだろう。じゃあ、自動で作っちゃおうぜ!っていう話。

ちなに既存のlexiconとして挙げられてるのは、
(Kidwell et al., 2009; Li and Feng, 2011)によるlexiconと

crowdsourced annotation(Maite Taboada, Julian Brooke, Milan Tofiloski, Kimberly Voll, and Manifred Stede. 2011. Lexicon-based meth- ods for sentiment analysis. Computational Linguis- tics, 37(2):267–307.)

の2つ。
このふたつのlexiconを使って、提案手法で自動lexiconを作る。と同時にこの2つのlexiconを使って評価もしている。

○提案手法

提案手法で使うコーパスはICWSM Spinn3r 2009 dataset (Burton et al., 2009)
提案手法では3つの素性を使っている。

1 単語そのものに注目した素性 ex. 単語の長さ、単語中のシラブルの数 etc.
2 文の中で単語の数に注目した素性 ex. 文章中の平均語長、word typeの比率 etc.
3 2つの指標ペアを仮定して比較対象単語がどっちに近いか?を考える素性 ex. (mommy, philosopy)のうちどっちがより抽象的な語か? etc.

1と2についてはそのまま数を数えるだけなので、直感的にわかりやすい。
ちょっとわかりにくいのが3。
まず、コーパス中に特定の単語wが出現するorしない。で2値の行列を作成する。

行列をLSAによって変換する。単語wはk次元のベクトルに変換される(棒読み)。

3の例にあるような(P,N)のペアを用意して、wのベクトルがどっちに近いか?を求めてFeature value Vとする。(この時の式は、p35の最後)

ちなみに(P,N)のペアは既存のlexiconとして挙げられていた2つのlexiconから人手で作成する。


1と2と3の素性をまとめる。まとめるのはLinear combinationとSVMの2種類。
これはWEKAっていうツールを使ったそうだ。WEKA (Witten and Frank, 2005)

あまりよーわからんが、どうやら、SVMの方が悪かったらしい。

○結果

実は、評価の方法とかあまり読み込んでない。
個人的な話だが、評価のところまで来ると「まっ、いっか」って飛ばしてしまうウルトラ悪い癖があるからだ。

いつかは直すつもりだが、今回は直してないので、結果だけ述べると、

すべて素性を使って、かつ、素性をLinearでまとめて作った提案手法のlexiconは次のような一致率を出した。

難しさlexiconとの一致率 87.6%
crowdsourcedとの一致率 79.5%

で、これが最高精度だよーん。と述べている。

○結論

ICWSM 2009コーパスの単語を使って提案手法で新しくlexicon作ったよ。

メインの素性はterm frequencyだけど、もっと複雑な素性を組み合わせたら、人手のlexiconに匹敵するくらいの出来になったよ。キラッ☆


○その他

そもそもcrowd sourced annotationなるものを初めてきいたが、「web上で多くの人によってアノーテートされたlexicon」と理解した(特に根拠なし)
これについては
Maite Taboada, Julian Brooke, Milan Tofiloski, Kimberly Voll, and Manifred Stede. 2011. Lexicon-based meth- ods for sentiment analysis. Computational Linguis- tics, 37(2):267–307.

を読まなくちゃあいけないなあ(いつか)

あと、個人的に気になったのが
Kumiko Tanaka-Ishii, Satoshi Tezuka, and Hiroshi Ter- ada. 2010. Sorting texts by readability. Computa- tional Linguistics, 36(2):203–227.
で、何かシステムを作ったらしい(とRelated workに書いてあった)


実は、この論文中でよくわかってないのがひとつ。
素性をまとめてました。
で、まとめて素性を使って、どういうlexiconを作ったの?
(単語,難易度)のペアのlexicon?なの?
だとしたら、(難易度)のラベルはどっかから来るの?

というかなり致命的なことがわかってなかったりします。


評価をあんまり読まない癖はそろそろやめようと思いました。