まゆゆの「やびゃあ」を推定するタスクに挑んでみた。

要旨

渡辺麻友とは、国民的なアイドルグループAKB48の人気メンバーであり、特に若者層から絶大な支持を受けている大物スターアイドルである。(以下、渡辺麻友のことを、通称「まゆゆ」と表現する)ある調べによると[1]、日本国民の5分の1は彼女を何らかの手段で見聞きしており、名実共に人気のアイドルであることの疑いの余地はない。これは、彼女自身が「オタクであると公言」し、同様に「オタクである」と主張する若者からの人気を得ているものと考えられる。そのため、はまりすぎてしまった結果、大量の商品を購入してしまう[2]、現実世界に戻りにくくなってしまう。などの深刻な問題が懸念が心配されている。専門家によると、まゆゆの言葉使いが特殊であり、このために前述の問題の発生が指摘されている。特に、「やびゃあ」という語は多くの人を引きつけ、国内外の研究者の関心を集めている。したがって、本研究では「やびゃあ」の語使用を推定するために、これを分類問題として扱った。

\* 本研究は、奈良先端科学技術大学院大学からの助成を受けて行っている研究があったり、共通のグループワークがあるという状況下で半ば現実逃避として行いました。関係する方々には申し訳ないですが、一応、libsvmを動かす練習をしておきたかっただけです。


関連研究

「やびゃあ」の語義について、近年は議論が盛んに行われている。「やびゃあ」とは、「やばい」の口語変化とする見方が一般的ではあるが、様々の解釈が提案されている。「矢吹く」の語形変化であるとの提唱がなされ、大きな議論をよんだ。また、Ya-Bi-yaと、日本語では通常あり得ない音韻節連続であることから、外国語ではないかとする説も提唱され、いまだに結論には至っていない。
「やびゃあ」と他の語との共起による推定は、いままで行われてこなかった。そこで、本研究では、まゆゆのブログの文章データを用いて、「やびゃあ」が発生するか、否か、という分類問題を解く。「やびゃあ」が出現する際に、他に発生する語を調査することで、「やびゃあ」問題の解決に貢献できると考えた。


提案手法

教師あり学習にて、二値分類器の学習を行った。まゆゆのブログの文章データを収集し、形態素解析を行ったのちに、素性空間に変換し、正解ラベルを付与した後にSVMにより学習を行った。以下、面倒くさくなってきたので、概要を示す。

文章データの収集

渡辺麻友の公式ブログから、クローリングツールを利用し、文章を収集した。クローリングツールはWebstemmer( http://www.unixuser.org/~euske/python/webstemmer/index-j.html )を利用した。なお、まゆゆのブログは渡り廊下走り隊のブログとデータ構造が共有されていたために、まゆゆ単独のブログ文章を獲得することができなかった。そのため、一度、渡り廊下走り隊の全員分のブログ文章を獲得したのちに、まゆゆのブログエントリのみを獲得した。
全部で250エントリを獲得し、そのうち「やびゃあ」が含まれているエントリを68事例獲得した。

形態素解析

Mecabを利用した。まゆゆの文章には顔文字、未知語が非常に多く、形態素解析に失敗している箇所が多々見受けられたが、無視した。理由は、面倒くさかったからである。

分類器

libsvmを利用した。「やびゃあ」が含まれている事例を1、含まれていない事例を0として、訓練ファイルを作成した。素性には形態素のbag-of-wordsを利用した。

結果

99%という驚異的な数字を記録した。それもそのはず、ほとんどが0の事例なんですもの。せめて「やびゃあ」が含まれている事例が100はないと。

感想

libsvmを半年ぶりに使うことになったので、リハビリがてら、こんなことをやってみました。ただのキモオタです。ただ、形態素解析がもっときっちりできたら面白いのになあ。とそんなことを思いました。
自分でも使うので、ソースはさらしておきます。
https://github.com/Kensuke-Mitsuzawa/classification_problem/tree/master/predition_usage_of_Mayu_Watanabe_Yabyaa



[1]ソースはおれ
[2]http://hamusoku.com/archives/7113338.html