読者です 読者をやめる 読者になる 読者になる

A Comparison of Features for Automatic Readability Assessment

今週のお題「文化祭や学園祭の思い出」

ふと、思ったので書いてみると、文化祭や学園祭とかそういうものにいい思い出がない。
なぜだか、この時期になると死にゃあしないけど、それなりに苦しい病気にかかることが多かったからだ。
じゃあ、代わりに剣道でもしてるかって言うと、いきなりケガをしたりする。たぶん、11月って向いてないんだわ。


A Comparison of Features for Automatic Readability Assessment
Feng, Lijun
Huenerfauth, Matt
Jansche, Martin
23rd International Conference on Computational Linguistics
2010

○ざっくり概要

巷に出回ってるReadability手法をかき集めてきて、比較しましたよ!
というのが、メインの話。
比較した結果、どれが一番ナイスな素性なのか?が判明している。
で、ついでに自分たちのアイディアの素性も加えてみたら、あーらstate-of-artになっちゃいました。っていう話。

○ざっくり手法

使った素性は以下の通り
Discourse Features

Language Modeling Features

Parsed Syntactic Features

POS-based Features

Shallow Features

Other Features


注意しなきゃいけないのが、「Discource Featureはいろんな素性の集合だということ」(これを理解するのにだいぶ時間がかかった)

なので、Discourse Featureの中には
Entity - Density Features

Lexical Chain Features

Conference Inference Features

Entity Grid Features

があるということ。

以上の素性を合計すると、273コの素性になった。
素性の説明はめんどいので省略。

○使ったコーパス

Weekly Readerっていう小学校〜高校生 向けの雑誌があるらしい。
(日本に該当する雑誌はないなあ)
で、今回は小学生向けの記事だけを選択したとのこと。
(ロリ○ンだからじゃないよ!)

いろいろ処理して、結果、1433記事を使用したとのこと。
(この内訳はTable 1に)


○素性をまとめる

素性をまとめるのに使ったのは
回帰 vs 分類器

具体的には

ロジスティクス回帰 vs SVM

で、ロジスティクス回帰はWekaによって、SVMLIBSVMによって訓練したんだそうな。

(結論から言っておくと、SVMの方がすべてにおいてよい結果だった)


で、この2つで各素性についてF値を出して表にしている。

で、最後に「じゃあ、273コの素性を全部つかったらどうなのさ?」
っていう問いに答えるための表がTable 12。

Table 12では他にもいろいろ工夫した結果も載せられている。

                                • -

"AddOneBest"ってのが"subset of features selected by a group-wise add-one-best greedy feature selection"(ぜんぜんわかってない)

"WekaFS"がWekaの素性選択機能で絞りこんだ素性による評価。

"Schwarm"が先行研究(ベースラインとは違うので注意)

"All Features"が言わずとも、273コの素性での評価。

                                • -

一番よかったのが、AddOneBestでF値が74.01ぐらい(SVMでの値)
この時の素性は122コ。

つまり、足を引っぱってた素性を消したら、結果は向上しました。という話。

当然、State-of-the-artです(2010年時点で)


あとはConclusionのところに「〜の素性での評価値が高くてビックリしたぜ!」みたいなことがツラツラ書いてある。
まあ、読んどくと参考になるかも。

○感想・結論

2010年の結果とはいえ、いい感じに素性を選びだしてくれているから、さしあたっては自分の研究にもこの素性を取り入れて実験してみたいなあ。と思った。

ただ、「日本人向けの英語文章」に対してこの論文での素性がどれくらい効いてくれるのか?疑問だし、同時に興味深さもある。

ところで、「日本人向けの英語文章」っていうとやっぱり検定教科書かNHKの新基礎英語とか使うんだろうけど、スキャンしなきゃいけないのかなあ。めんどいなあ。とかそんなことを思う。
この人達みたいに、出版社が「いいよー」って言ってデータくれないかなあ。


他に思ったのが、この論文、"Language Models"が何の前触れもなく"LM"に変わって、意味が分からなくて困った。
CLLINGクラスの人なら、いきなりLMに表記が変わっても、理解できるのかあ(遠い目)

あと、気になったのが、この論文中ではSchwarm and Ostendorf’s (2005)が本当によく出てくる。まあ、先行研究的な位置づけだから当たり前だけど...ことある事に「Schwarm and Ostendorf’s (2005)ではこうだったけど、オレたちは〜して超えてやったぜ!」(脳内補間)って読める気がして、Schwarm and Ostendorfがかわいそうになった。