プリキュアとセーラームーンはどちらの方がサザエさんに近いのか？

この記事ではこんなことを書くよテキストマイニング的に次元削減とプロットする話 t-SNEとかいうイケてる名前のアルゴリズムプリキュアとセーラームーンはどっちの方がいいかはじめに計算機分野に所属する人たちは時々、本当に間抜けなことを真面目に取…

2015-06-24

SPARQLで人類の知にアクセスしよう

NLP

やりたいこと DBpediaにアクセスして、人類の英知を我が物にしたい。どうやって解決するか？ SPARQLをマスターする。 DBpediaはRDFモデル(正確にはOWL)で記述されているデータである。データの実体はXMLで記述されるが、データを効率良く取得するには、ク…

2015-06-03

Dockerで処理をまとめておく

環境整備 Python NLP bash

やりたいこと処理をまとめて簡単に動かせるようにしておきたい。環境設定とか毎回するの面倒なので、コマンド一発で動かせるくらいにしておきたい。解決策 Docker使う。ソースコードを動かせる状態にしておいて、Dockerの仮想環境の中で稼働させる。そ…

2015-04-29

文書分類タスクでよく利用されるfeature selection

論文メモ NLP

"Bias Analysis in Text Classification for Highly Skewed Data"(Lei and Huan)を読んでいて、「文書分類タスクでよく使われるfeature selectionは４つある。Information GainとChi-squared testとOdds ratioとBi-Normal Separationだ」みたいなことが書い…

2015-04-24

MacでKH coderを動かす

mac NLP

やりたいこと MacでKH coderを利用可能な状態にしたい MacはOS X Yosemite 解決法 Macをやめるもう少し噛み砕いて言うと、Windowsの仮想マシンを立ち上げて、Windows内でKH coderを利用するやるべきこと 1 Virtual Boxを利用できる状態にする特に詳しい説…

2015-03-11

早く、簡単に共起語ペアの頻度を数える

Python NLP

やりたいこと共起語ペアのカウントを取りたい。単に基礎集計をやりたいだけなので、matrixを作る必要はない。解決策タプルで共起語ペアを作って、カウントする手順は共起語のタプルを作って、リストに放り込んでいく collection::Counter.most_common(…

2015-03-09

MeCabの制約付き解析モードを利用する

Python NLP

MeCabの制約付き解析モードを利用するやりたいこと標準の辞書だけだと、どうしても不要な単語まで分割してしまう。かといって、辞書ファイルの内容をいじるのは割と手間がかかる作業だ。そこで、「制約つき解析モード」を利用することにした。工藤さんに…

2015-03-03

nltkでタプルのbigramカウントをする

NLP Python

やりたいこと (word, POS)のタプルの状態でbi-gramのカウントを取りたい解決法 nltkで普通にできた。 import nltk list_input = [('I', 'Noun'), ('feel', 'Verb'), ('happy', 'Adj'), ('You', 'Noun'), ('feel', 'Verb'), ('happy', 'Adj')] corpus = nltk…

2014-12-23

Witten-Bell smoothingのおぼえ書き

NLP

witten-bell smoothingを実装することがあったのだが、「えっ、何するんだっけ？」となってしまったので、忘れないうちに書いておく。そもそもスムージングとは？確率的言語モデルを使うときに役に立つ便利道具。もっともベーシックな言語モデルは学習コ…