A Comparison of Features for Automatic Readability Assessmentの追試でやるべきこと

A Comparison of Features for Automatic Readability Assessment の追試で実験を進めていこうと思っているが、どうせノートに書いても忘れるので、代わりにここにでも書いておく。

3.1 Discourse Featureの素性

3.1.1 Entity-Density Features

はOpen NLPのNamed Entity Extraction toolを利用するんだそうだ。
Open NLPは...Javaか...pythonを使っているので、どう呼び出すのか考えどころかと。

実装すべきな素性は
1 percentage of named entities per document
2 percentage of named entities per sentences
3 percentage of overlapping nouns removed
4 average number of remaining nouns per sentence
5 percentage of named entities in total entities
6 percentage of remaining nouns in total entities


Open NLPのマニュアルによると、

$bin/opennlp TokenNameFinder en-ner-person.bin

でモデルen-ner-person.binを読み込んで、それから文章を入力すると、名前を認識してくれるらしい。
うん、たしかにしてくれた。

ちょっと問題なのが、欧米人の名前しか認識できないこと。
アジア系の名前が認識できない。

これはまずいので別のツールを考えたほうがいいかもしれない。


3.1.2 Lexical Chain FeaturesではGalley and Mckeown (2003)というreferenceであげられているツールを使ったそうだが、調べてみるとagreementが必要なツールだった。ちょっと躊躇している...2003年だしなあ...もっといいツールもありあそうなので、類似ツールでopenなものを探してみることに
agreementを申し込むページは
http://www1.cs.columbia.edu/nlp/tools.cgi
にあるが....

3.1.3 Coreference Inference Featuresは暗示的に同一の名詞を指し示しているいる指示語?とかを指しているらしい。共参照...かなあ?これもOpenNLPを使っているとのこと。ということは前述のように欧米人の名前しか認識しない問題は自ずから起きるので、いまはスキップ

3.1.4 Entity Grid FeaturesはBrown Conference Toolkitというものを使っている。調べてみたら、うっ、C++
http://www.cs.brown.edu/~melsner/manual.html#what-is-the-coherence-toolkit
を見たが、だいぶ使えるまで手間がかかりそう...