昔話の構造分解に関するサーベイ

特に昔話の構造分析では，AT (ATU) 分類が非常に信頼度が高い分類として扱われているらしいので，今回はこれに絞ったサーベイを．

ATU分類の概要

Anti AarneとStith Tompsonによる分類がAT index(AT分類) 少し前まで（昔話の研究では）世界的に認められてきた分類体系
しかし，インド・ヨーロッパに偏った分類であることが知られており，Hans-Jörg Utherによる改訂版が発表された．
現在では，この３人よる分類体系がATU indexと呼ばれている．

Utherの論文は（論文というか，辞典みたいな本だけど）
Uther, H.-J. (2004). The types of international folktales: a classification and bibliography based on the system of antti aarne and stith thompson, vol. 1{3 of FF Communications. Helsinki: Academia Scientarium Fennica.

ATU分類体系のシステム概要
全部で2399クラス存在している．
分類システムはツリー構造になっており，トップ階層では７つのノードを持つ．その下に中分類ノードがあり，葉ノードが具体的な小分類クラスに該当する．
分類ツリーはAT Types of Folktales - The Gold Scalesで閲覧可能．

ATU分類の対象単位

１昔話．つまり1 documentが対象と考えてよい．

Thompson Motif Indexの概要

述べられている論文は
Thompson, S. (1955{1958). Motif-index of folkliterature: a classification of narrative elements in folktales, ballads, myths, fables, mediaeval romances, exempla, fabliaux, jestbooks, and local legends. Indiana University Press.

ATUとはまた別の体系のツリー構造を持つ．トップ階層ノードの名前は英語アルファベットから始まるが，特にアルファベットに意味があるわけではない．
S. Thompson. Motif-index of folk-literatureで閲覧可能．

Thompson Motif indexの対象単位

昔話の一部分．一部分とは文単位でもよいし，文中の一部分だけでもよいし，または複数文でもよい．

Thompson Motif indexとATUの関係

ATU分類作業の補助的な役割をしている．ATU分類の特定が難しい場合に，先にThompson Motif indexを適用する．Thompson Motif indexがわかれば，ATU catalogの中で，各ATU番号が該当するThompson Motif indexの番号を記載している．このcatalogを使って，該当するATU番号を特定する．したがって，Thompson Motif indexは必要不可欠．というわけではない．

Thompson Motif indexは本当にいらない子か？

そんなことはない．前節でも述べた通り，ATU分類が直接困難な場合に，とても役にたつ．

さらに，昔話の構造分類に役に立つ．例えば，ATU indexは昔話の１話を対象とした分類なので，具体的に昔話がどういう要素をもっているか？の情報はわからない．
しかし，Thompson Motif indexは文中の任意の範囲に付与できる情報なので，昔話の要素分析に最適である．

似たことはProppもやっているが，Thompson Motif indexの方が後発である上に，ATUとも結びついているだけあって，「記述力が高い表現」だと評価することができる．

電子版Thompson Motif indexの使い方

電子版のMotif indexの一覧はS. Thompson. Motif-index of folk-literatureに存在する．
かなり使い勝手が悪い（デザイン設計が悪い）が，モチーフ情報が先頭アルファベットから記載されている．

記載されているフォーマットに関する説明はHow to use Thompson's Folklore Motif Indexにある．
フォーマットだけ日本語で説明書きを残しておく．

列がカンマ区切りで情報が記載されている．
モチーフ番号, 記述子, (内容が似ているために間違えやすいモチーフ番号) よくモチーフ番号が頻出する地域 : モチーフが出現する民話コレクション名

ほとんどの項目は一つしか要素を持たない．
B2. †B2. Animal totems. Irish myth: Cross.
のように．
しかし，複数の要素をもつ場合は記述フォーマットが守られているとは言いがたい

B11. †B11. Dragon. **Smith Dragon; *Fb Drager, lindorme, slanger i folkets tro (Særtryk af Naturen og Mennesket, 1894, pp. 164--196); *Nyrop Dania II 341ff.; *Róheim Drachen und Drachenkämpfer; *Hdwb. d. Abergl. II 364 ff.; Meyer Germanische Mythologie (1891) 95ff.; **Du Bose The Dragon, Image and Demon (London, 1886); Norlind Skattsägner 44f., 77f., Solheim Register 17; Danish: Kristensen Danske Sagn II (1893) 133ff., 176ff., (1928) 119ff.--*Type 300; *BP I 547.--Icel.: MacCulloch Eddic 216; Celtic: *Henderson Celtic Dragon Myth (Edinburgh, 1911), *Cross; Lettish: Auning Ueber den lettischen Drachenmythus; Armenian: Ananikian 76ff; Jewish: Neuman; Chinese: Ferguson 101; India: Thompson-Balys; Korean: Zong in-Sob 169, No. 73.

であれば，モチーフ番号の後につらつらと記述子が続き，かなり後になってからモチーフ番号が頻出する地域と民話コレクションの情報が出現する．

Computational Folkloristics

正式名称なのかイマイチ不明だけど，こういう分野があるみたいだ．
Computational Folkloristics | July 2012 | Communications of the ACM

また近年ではワークショップも開かれているらしい．L-RECと同時開催になっていたりと，それなりに力はある模様
2012 CMN'12
2013 CMN 2013, Hamburg, Germany
2014も！CMN'14

（特にモチーフに関して）関連研究

Folgert Karsdrop + "Identifying Motif in Folktales using Topic Models", Proceedings of the 22 Annual Belgian-Dutch Conference on Machine Learning
L-LDAを用いて，未知の文章が入力されたら，候補のモチーフ番号を出力するモデルを提案．しかし，残念なことに，L-LDAよりかはBM25を使ったモデルの方が若干よかった模様

有用そうな資源

特に何かタグがついているわけでもないが，昔話が集められているだけありがたい．
Folktexts: A library of folktales, folklore, fairy tales, and mythology, page 1

このページもタグはないが，資源としてはありがたい
The Baldwin Online Children's Literature Project...Bringing Yesterday's Classics to Today's Children

これもタグなし
from Andrew Lang's Fairy Books

project Gutenbergは民話だけとは限らないので，ちょっと目的がずれるかも
Error 403

オランダの存在感

どうもオランダは計算機を使った昔話の推定にかなり熱心らしい．
あきらかにこの分野ではオランダの大学から出ているpaperが多い．
データベースのリンクページを貼っておくが，ここから先はオランダ語しか存在してないっぽい
Dutch Folktale Database
(なお，各個別のページにはgoogle add-onで英語に翻訳可能)

The Dutch Folktale database

どうやってデータを取得しようか？と思っていたが，wgetで簡単に取得できることが判明した．実際のデータはhtmlで記述されている．
ただし，注意しないといけない点が数点

昔話の分類システムとしてAarne Tompson以外のシステムも採用されている．(つまり，AT分類以外の番号も存在している．検索時にATという名前でフィルタリングすれば，ATもしくはATU番号のみを取得するのは可能だと思う)
著作権の関係で，表示できないお話もけっこうある．(wgetで取得しようとすると，403エラーが出る)