Introducing PersPred, a syntactic and semantic database for persian complex predicates

ここ数日かけてじっくり読んだ論文．pdfはACL anthologyにあがってる

「次にどんな研究しようかな？」っていう漠然とした気分から，とりあえず最新だし読んでみた． NAACLのMulti Word Expressionのworkshopに投稿された論文．松本先生がペルシア語の複合動詞の話をちょっと前にちらっとされてたのは，おそらくこのworkshopでご覧になったのではないかな．と思う．

この論文の概要

ペルシア語のComplex Predicate(複合述語　※以下，CPと表記) データベースの紹介．まず，2~3節でペルシア語CPの特徴をけっこう丁寧に説明し，４節でこの人達の提案する概念，5~でデータベースの構築と設計について書かれている． 2~3節はNLPの技術的なことは書いていないから，ペルシア語のCPの言語学的な特徴を知りたい人にはピッタリじゃないかな．

Introduction

うん，そうだね．程度のことしか書いていない．ただ，いくつか用語の定義と面白い情報もかいてあったので，それらについては述べておく．

用語の定義など

Complex predicate

複合述語．よく，ペルシア語の教科書は「複合動詞」(complex verb, compound verb)と紹介してることが多いのだけど，この論文では，そうではなくて，述語として扱っている．「複合動詞」という見方が間違い，と言っているわけではなくて，あくまで「どのスコープで見るか？」の違い．

Light verb construction

complex predicateとまったく同じ意味．ちなみにlight verbとは言語学用語で「不完全な動詞で，他の述語要素と組合わさることで，述語として働く」という動詞

lexical verb

言語学用語．「その動詞そのもので独立して述語として働くことができる動詞」何のことはない，１語で意味を持つ動詞のことを言う．

面白いなと思った情報

ペルシア語には動詞が250個程度しかない．正解に言うと．Sadeghi(1993)は252個程度だと見積もっており，一般的に使われるのは115個だと言っている．Khanlari(1986)は279個から成るリストを作成している．あと，参考までにBijankhan corpusには228の動詞しかない．Bijankhan corpusは新聞から作成されているので，つまり，新聞で使われてる動詞は228個程度しかないということ．

Bijankhan corpus

では，250個そこらの動詞でどうやって言語を成立させているのか？，というと，それこそ「CP表現の豊かさのおかげ」ということになる．

2 MWEとしてのCP

MWEとは

Multi Word Expressionの略．複数語でもってして，意味をもつ表現全体のことを指す．あくまで私見だが，いまNLPでHotな分野の一つ．

2.1 Phrasal Properties

CPを構成する語は統語的に分離可能だと言っている．（この特徴をもってして，Phrasal propertyと言っている可能性が高い）「CPを構成する語は統語的に分離可能だと言っている」をもっと具体的な物言いをすると，「CP表現の中で，名詞と動詞の間に何らかの語，または屈折辞が挿入されていること」という意味．

Phrasal Propertiesは次のパターンとして定義できる． (アルファベットと例文番号は論文と同じ)

a)屈折は動詞の側で発生する．名詞の側では発生しない．

屈折とは（ニコニコ大百科のクセして，わかりやすい，かつ正確な定義を書いてやがる，レベルたけえww）
もうちょっと具体的な屈折の例

a)の例文は
(1)Maryam bâ Omid harf ne-mi-zan-ad

この例文でのCPはNoun:harf Verb:ne-mi-zan-adから構成される．a)の特徴が言っている通りharfの側では屈折は発生していない．また，このときharfš ne-mi-zan-adとかは言わない（と，ぼくの経験上は思う．ネイティブじゃないからしらねーけど）

b)名詞と動詞の間に次のいずれかが挿入される．接尾辞，または未来系の助動詞，またはSyntactic constituentn

接尾辞の時

例文(2) Dust=aš dâr-am
CPはNoun:Dust Verb:dâr-amで構成される．NounとVerbの間にはDustの接尾辞であるašが挿入されている．

未来の助動詞の時

例文(3) Maryam Omid=râ dust xâh-ad dâšt
CPはNoun:dust Verb:dâštで構成される．NounとVerbの間には助動詞のxâh-adが挿入されている．

Syntactic Constituent

言語学の用語で「構成素」のこと．
解説はここを見るとよいだろう．
※NLP的には句構造文法のconstituentのことだと解釈して良いと思う．

例文(4) Dast be begol-hâ na-zan
CPはNoun:Dast Verb:na-zanで構成される．NounとVerbの間にbe begol-hâっていう句が挿入されている．

c)名詞と動詞は等位である．

CPの名詞と動詞の間に等位接続詞が挿入されていること．

例文(5) Mu-hâ=yaš=râ boros yâ šane zad
CPはNoun:boros, šane Verb:zadで構成される．Nounの間には等位接続詞のyâが挿入されている．

例文(6) Omid sili zad va xord
CPはNoun:sili Verb:zad, xordで構成される．Verbの間には等位接続詞のvaが挿入されている．

d)名詞だけが飛び出してしまう．

これは正直いうと，これ以上の解説しようがない．見てそのまんまなので，なので省略．

e)CPが受動態として扱われる．

この場合，能動文でCPの名詞だった語は，受動文では主語になる．

例文
(8) a-能動文 Maryam be Omid tohmat zad
(8)b-受動文 Be Omid tohmat zade šod

f)名詞がNoun Phraseのheadとして扱われる．

Noun Phraseとは名詞として扱われるフレーズのこと．言語学やNLPではNPって省略して表記することが多い．
headの正しい解説はWikiでもどうぞ．

例文(9) [In xabar=e mohem]=râ be mâ dâd
[]表記はカッコ内がNPであることを示す．NPのheadはxabar．
CPはNoun:[In xabar=e mohem] Verb:dâdで構成される．もっと正確にいうと，名詞の中でheadはxabarなわけだから，CPはNoun:xabar Verb:dâdで構成される．と言った方がいい．

2.1Phrasal Propertiesの結論

以上のパターンと例文でのCPは，Object-Verb(CPでない名詞と動詞の組み合わせ)と，統語的に区別することは不可能である．
つまり，a)~f)のパターンでの統語的な関係は，Object-Verbの関係でも起こりえる統語的な特徴である．なので，a)~f)のパターンをもって「このフレーズはCPだ！」とは言えない．ということ．

2.2 CPの語彙的な特徴と慣用句的な特徴

ペルシア語のCPは明確にlexeme(語彙素)の特徴を示す．(Bonami and Samvelian, 2010)
語彙素とは，Weblioの解説なんてどうでしょう？

また，意味論と形態論から見た場合のCPは次の特徴を持つ．

意味論的には，CPの意味は予測できない．（この後でもちょくちょく書いてあるが，つまりは，CPは「慣用句」だから，意味が予測できない．と言っている．Object-Verbの関係であれば，「ああ，きっとこういう意味なんだろうな」と予測できるが，CPは慣用句なために，予測ができない）
形態論的には，CPはwordのように振る舞う．(lexical formation ruleを導くという点で．lexical formation ruleは後述)
N+Vの組み合わせは多かれ少なかれ，慣用句的な意味を持つ．

という，点を踏まえてもらって，CPs are lexicalizedとCPs feed lexeme formation ruleと(Non)predictability of the verbの３つの特徴を解説する．

CPは語彙化される(CPs are lexicalized)

多くの場合，CPの意味は，CPを構成する語からは予測できない意味になる．
と，いうのも，N+Vの組み合わせが，様々な語彙化レベルに制約を与えているからである． CPの語彙化にはspecializationとsemantic driftの２つがある．specializationとsemantic driftは「CPが構成する語からは予測できない」という点では同じだが，意味が変化する仕方が違う．

Specializationの場合 (注：specializationとは，言語学の用語ではない．単に「意味が特殊になる」ということがいいたくて使っているのではないかと思う)

もう何度も同じことを言っていると思うが，つまりは「CPは「慣用句」だから，意味が予測できない」ということ．

例えば，dast dâdnは「握手する」という意味だが，単語を語義通りにとらえれば「手を（誰かに）与える」という意味になる．しかし，specializaionが起きると，「握手する」という意味になる．

他の例は，論文中のこの項を参照して欲しい．

Semantic driftの場合 (注：semantic driftとは，言語学用語で「時や場所によって，語義通りの意味と違う意味を持つこと」を指す．) 隠喩や換喩によって，semantic driftが発生する．と言っている．

時には，CPの個々の語の意味は復元可能である．
例えば，guš kardanは語義通りには「耳がする」になるが，ここで隠喩が働いて「聞く」という意味に変化する．でも私たちは「耳がする動作」といったら，「聞く」であることがわかる．このように，語義通りに捉えても意味がわかることを「復元可能」と言っている．

復元可能であると述べたが，元のCPの意味はほとんどの場合，すでに話し手と聞き手には認知されていないことが多い．
例えば，ru gereftanは語義通りには「顔を奪う」が隠喩によって「面目をうばう」という意味を経由して「生意気になる」という意味になる．しかし，ru gereftanと言った人も，言われた人も，そんなことはまったく気にしていないだろう．

CPはlexeme formation ruleを導く(CPs feed lexeme formation rule)

lexeme formation ruleという用語はぼくは聞いたことがないし，この論文には定義も書いていなかったが，よく限りだと「語が派生して，別の品詞になりながらも似た意味を持つ」ことを指すのではないかと思う．（この論文に述べられている）具体的な現象は「CPの動詞の側に-iのsuffixがつき，形容詞に派生する」という現象を指しているように思う．

例えば，dust daštan「好き」の動詞に-iのsuffixがつくと，dustdaštaniになり，つまり「愛らしい」になる．

CPにはこの現象が発生することから，「CPはlexeme formation rule」を導く，と言っているのだと思う．

（ちなみに，lexeme formation ruleについて，この論文では先行研究はseveral studiesで特にreferenceを挙げていないのだが，ぼくが調べたところではペルシア語に関しては(Bonami and Samvelian, 2010)のことを言っているようだ．(Bonami and Samvelian,2010)のpdfはここで閲覧できる）

動詞の予測不可能性(Non-)predictibility of the verb

これはミスリードを起こしそうなタイトルだが，言っていることは大したことはない．
要約すると，「ある動詞とある名詞の組み合わせは意味として成立しないことがある．だから予測不可能なのだ．そして，ある動詞とある名詞の組み合わせは不成立でも，別のある動詞と別のある名詞の組み合わせは成立することがある．したがって，異なる名詞＋動詞の組み合わせなのに，同じ意味になることがある」と言っている．

例を出そう．　　 sohbat kardanとharf zadanは両方とも「話す」という意味だが，名詞も動詞もまったく別の語から成立している．しかし，sohbat zadanでは意味が不成立で，harf kardanでも意味が不成立である．普通は，sohbat kardanとharf zadanが成立するなら，「じゃあsohbat zadanもOKなんだろ」と思ってしまうが，(Non-)predicitibility of the verbによって不成立となってしまう．

3 productivity of Persian CPs

この節ではCPのcompositionalityとproductivityについて解説している．

compositionalityとは言語学用語で日本語では「構成性原理」や「フレーゲの原理」と呼ばれる．ざっくりとした説明ではあるが「構成要素から，一意に意味が決定される」という働きを指す．ここでは，「CPを構成する語の意味から，CPの意味は一意に決定される」ということになる．

productivityもまた言語学用語で「規則や構文などの文法項目が適用できる範囲の広さ」を意味する．productivityな語，つまり生産性が高い語ほど，多くの規則や構文に適用可能である．

3.1 compositionality-based productivity

特にreferenceも書いていないので，この人達の独自のアイディアなのだろう．
簡単に述べると「ペルシア語のCPは慣用句の各パーツが個々の意味を持っている」といういうアイディアである．

compositionalityは「CPを構成する語の意味から，CPの意味は一意に決定される」なので，つまり，「慣用句の各パーツから慣用句の意味は一意に決定される」ということになる．そして，慣用句は語ごとに（意味を）分解して，構成する語に意味を割り当てることができる．(この操作を論文中ではdecompositionと呼んでいる)

ここで，table1を見るとわかりやすい． kešidanを例に説明をしている．この表，ちょっとわかりづらいが，一行ごとにkešidanの持つ意味が異なる．

１行目の例にあるkešidanはすべて「作る事」に関わる動詞である．なので，名詞側に「作る対象」があれば，「『作る対象』を作る」という意味になる．つまり，kešidanには「作る」の意味が割り当てられていることを示す．

対して，３行目の例にあるkešidanは「吸うこと」に関わる動詞である．なので，名詞側に「吸う対象」があれば，「『吸う対象』を吸う」という意味になる．つまり，kešidanには「吸う」の意味が割り当てられていることを示す．

この例のように，「分解して意味を割り当てる操作」が成立する時に，compositionalityが成立していると言える．また，kešidanは７つもの例に分解可能であり，その分だけ「生産性が高い語」であるということを意味している．

3.2 Analogical Productivity

天下り的になってしまうが，先に例を出す．

kise kešidanは「摩擦用の手袋でこする」という意味のCPである．
「〜で」という表記の通り，このCPの中には「道具格」があることを示している．しかし，kešidanには"to use"といった「道具格」を示す意味はない．したがって，kise kešidanを分解して，kešidanに「〜でこする」という意味を割り当てることはできない．

ここで，Analogical Productivityの出番となる． Analogical Productivityによって，kešidanに「〜でこする」という意味を持たせることにしてしまうのだ．何とも都合のよい理論であるが，しかし，こう説明すればキレイに収まるのもまた事実なのだ．

4 A Construction-Based Approach

４節は正直いうと，このデータベースの肝となる概念が説明されているのだが，「クラス構造」の概念が理解できていないと，かなり難しい．残念ながら，ぼくには説明しきれない．

Samvelian(2012)のConstruction-based approachという概念がある．
CPがMWEであるという前提で，CPがconstructionに対応している．というのが基本的なアイディアである．
constructionには抽象化のレベルがある．一番，具体的なレベルだと，jâru zadanクラス（と，いうかインスタンス）を指し，一番，抽象化されたレベルでは「道具格」クラスを指す．（クラス構造的には当たり前のことであるが）
また，constructionは階層的になっている．つまり，jâru zadanクラスは「道具格」クラスのsub-classである．（これもクラス構造がわかれば，当たり前のことだと思われる）

このクラス概念をもってして，ペルシア語のCPを説明し，PresPredのデータベース設計を行った．というのが，この論文で一番いいたいこと（のはず）

各クラスはConstructionによって表される．論文中では，２つ紹介されている．

(10) Instrumental-zadan construction

Instrumental-zadan constructionクラスは次のように定義される．

N0 (be)N1 N zadan
※ただし，(be)N1は省略可能

それぞれ，N0:Agent N1:Patient N:Instrumentである．
Instrumental-zadan constructionクラスの意味は次のように定義される．
「N0がNを伴って(N1の上で)動作をする」

このクラスに属するCPは論文を参照していただきたい．

(11) Forming-zadan Construction

Forming-zadan Constructionクラスは次のように定義される．

N0 N zadan

それぞれ，N0:Location/Theme N:Themeである． Forming-zadan Constructionクラスは次のように定義される．「NがN0の上で形成される．」

このクラスに属するCPは論文を参照していただきたい．

※Samvelian(2012)はConstruction-based approachをzadanに適用したに過ぎない．したがって，他のすべての動詞では実証はされていないが，きっとうまく行くんだろう．

Semantic subtype and supertype

定義されたクラスにはsuper-classとsub-classの概念がある．論文中では，Spreading-zadanクラスを例にとって解説している．詳しくは論文を見てもらうのがよいが，Spreading-zadanクラスはlocatumクラスのsub-classである．つまり，Spreading-zadanのsuper-classがlocatumクラスである．

と，いうのは言葉で説明するより図を見てもらった方が早い．

f:id:kensuke-mi:20140115054505j:plain

図のように　spreading-zadanクラスはlocatumクラスのsub-classである．また，同様にして，Incorporation-zadanクラスとPutting-zadanクラスもlocatum-zadanクラスのsub-classである．

Synonymous construction

Snonymous constructionは次のように定義されている．
「同一のクラス内で，『同じ名詞』が『違う動詞』を伴って成立するとき，Synonymousである」これも図を見てもらった方が早いと思う．

f:id:kensuke-mi:20140115054801j:plain