Automatic analysis of syntactic complexity in second language writing

Automatic analysis of syntactic complexity in second language writing
Xiaofei Lu
International Journal of Corpus Linguistics, 15(4):474-496.

英語学習者の書いたエッセイを評価するシステムの設計について書かれた論文。
実際にシステムを作成して公開しているのだから恐れ入る。
http://www.personal.psu.edu/xxl13/download.html

実際のところ、評価しているといのは間違いで、カウントしているといった方が正しい。
なので、システムの出力も何かの評価値が出されるのでなく、１４の尺度をカウントして出力している。

○システムの概要

で、そのカウントしている尺度なのだが。。。非常にわかりづらい。
3.2 Syntactic complexity analysisにその一覧がある。
言語学に精通している人ならすぐにわかるのだが、そうでない人は苦戦するんじゃあないだろうか（たぶん）

とにかく、システムでの重要だし、論文中にも頻出する特に重要な尺度の定義を挙げておく。

Clause（節）：　Clauseとは主語と定動詞（定型動詞とも）をもった構造である。不定動詞（たぶん、To不定動詞や動名詞のことを指す）ではダメ。

T-unit : T-unitとはひとつのメインのClauseに以下のものがくっつく、または埋め込まれた構造のこと。隣接するClause、またはNonClauseな何か。具体的には(1)rootノードの直下にある (2)Clauseノードと同等の姉妹ノードで、かつ、SBAR、またはVPに支配されていない、そんなノード。　のうちどちらかを満たせばおk。

抽象的すぎてわかんねーです。
なので、例をつけると、
We use it when a girl in our dorm is acting like a spoiled child.
という文は、

(ROOT (S
(NP (PRP We)) (VP (VBP use) (NP (PRP it))
(SBAR
(WHADVP (WRB when)) (S
(NP
(NP (DT a) (NN girl)) (PP (IN in)
(NP (PRP$ our) (NN dorm)))) (VP (VBZ is)
(VP (VBG acting) (PP (IN like)
(NP (DT a) (JJ spoiled) (NN child)))))))) (. .)))

と解析されるわけです。
注目すべきは１行目の(Sと３行目の(SBARと４行目の(S。

１行目の(SはROOTの直下にあるので(1)を満たし、T-unit
４行目の(Sは(SBARに配下にあるので、(2)を満たさず不可。なので、T-unitでない。

とまあ、こんな感じ。

あとほかにもいろいろ構文概念があがっているけど、よくわかってないのでパス。

まあ、要はこういう構文概念がいくつあったか？をカウントするわけで。

こういう構文概念の数が多い文ほどGoodな文ということだと思う（たぶん）

○評価方法

評価は中国人の大学生で英語専攻の学生が書いたエッセイを集めたコーパスで行った。WECCLというらしい。

で、人手でアノテーションした結果とシステムの結果を比較している。
比較すると、相関値は一番低くても.834のCP/Cで一番高かったので1.0000のMLSだったとのこと。
要は、システムはけっこーすげーよ！ってことで。

注意しとかないといけないのが一点。
このシステムは正しくパージングできる前提で動いている。なので、しょうもない構文ミスをしたりスペルミスをしまくっているテキストは処理できない（できるかもしれないけど正しい結果でない）

なので、十分に英語ができる人のエッセイを使ってくださいね☆

と書いてありました。