Computing and Evaluating Syntactic Complexity Features for Automated Scoring of Spontaneous Non-Native Speech

Chen, Miao　Zechner, Klaus
The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies
2011

きょうのは構文の難しさの評価尺度を使って、speech(Non-native)にも応用をかけてみましょうよ。という話。

writingに難易度評価手法はLu 2010がかなりナイスな手法を提案しており、かつそのためのToolkitも公開されているんだそうな。
（もちろん、それ以前からいろんな人が色んな評価尺度を提案してきているのだが）

で、今回はLuのToolkitを使って「Speechの評価をするにはどんな素性がGoodなのか？」を調査した。というのが大体の大筋です。

気になった内容として、Syntactic complexityの定義が書いてありました。
Syntactic complexityの定義は"Syntactic complexity is defined as “the range of forms that surface in language production and the degree of sophistication of such forms”(Ortega, 2003)らしいです。
日本語にすると、「言語生成を表面的に覆っている形の連なり、とそういった形の複雑さの程度」といった所でしょうかね。

基本的に難易度評価尺度はWriting と同じなので、ここではあんまり読んでないです。

・素性について

節と文の分解をベースとした素性(Clause and Sentence based Features = CB)が２６個。
パースする時にバースとする素性(Parse Tree based Features = PT)が６５個。
を候補にして、素性の条件を少しずつ変えて、訓練を行ったとのことです。

で、最終的に人手でつけたデータとの相関を調べて、相関値が高いものを選択したとのことでした。

・データについて

使ったデータはTOEFL Practice Online(TPO)testを使ったみたいです。
このデータの特徴は、学習者の出来具合を１〜４の点数付けしているところです。（最高得点は４点）

で、このテストデータを訓練セットと５つのテストセットに分割して、評価をしたとのことでした。
（ちなみに訓練セットには人手でタグ付けがされている）

・素性選択について

詳しくは4.2 Feature Selectionに詳しく書いてある。
訓練データを使って訓練した評価器を使ってテストデータの評価をし、んで、人手のデータと一番相関値がとれたテストセットにつかった素性をGoodな素性とする。

ざっくり言うとかんな感じかなと思われます。

で、CBからは８つ、PTからは９つの合計１７つの有意な素性を抽出できた。とのことです。

・結果について

なんか、最後の方がごちゃぁあっとしてよくわからない感じです。

ま、一言でまとめてしまうと、一番よさそうな素性で訓練したら、人手の結果と、ピアソン相関で0.49っていう値になったよ。ってことでした。

ん、なんだか最後の方が詰まってしまった感じです。