機械学習など

キモオタがやってみるデータサイエンス〜その3:ミスコン支援アプリを作ってしまった話〜

きょうはこんなこと書くよ ミスコン出場者の相関関係がわかるアプリつくったよ ついでだから、Mr用にも作ってやったよ。 みんな投票してね♡ テクニカルにはこんな内容だよ 文書データを次元圧縮して、相関図にした話 python/bokehを使って、簡単にインタラク…

キモオタがやってみるデータサイエンス〜その1:DeepLearningでミスコンっぽい顔を知る〜

注:この記事はキモヲタがキモヲタ同業者のために書いたとぉってもきも〜い記事です。それ以外の方は吐血するかもしれないので気をつけてくださいね♩ こんばんは。キモオタです。ブヒブヒ さて、10月になりましたね。10月といえば、そろそろ学園祭のシー…

お手軽POS tagging(ペルシア語編)

また例によって,ペルシア語の話である. きょうのお題は「ちょー簡単にペルシア語の品詞タグ付けをしよう!」 そもそも品詞タグ付けってなに? 読んで字の如く,単語に品詞情報をつけること. 「なにそれ?楽しいの?」と思うかもしれないが,自然言語処理…

liblinear用の特徴量選択

以前,線形分類器であるliblinear向けにグリッド探索をする話を紹介したと思う. 今度は,liblinear向けに特徴量を選択したくなった. 元々,libsvmには特徴量選択スクリプトが存在している. じゃあ,これをちょっと改造すればいいんじゃね?という安易な発…

マルチラベル分類用のライブラリMulanをjythonから使ってみる

マルチラベル問題とは,「ひとつの事例に複数のラベルがつきうる場合の問題」のことを指す. 例えば,文書分類だと,「サッカーのフーリガンのニュース記事はスポーツのジャンルだし,社会のジャンルでもある」っていうラベルが付く場合を指す.こういうマル…

LIBLINEAR用のスケーリングスクリプトとグリッド探索スクリプト

LIBLINEARとは線形分類に特化した分類器である. 簡単な説明とか,使い方は検索すればすぐ出てくると思うが, LIBLINEARを用いた機械学習入門(単語分割) あたりはわかりやすいと思う. 一応,公式ページも載せておく. LIBLINEAR -- A Library for Large Lin…

双対分解を理解するノート

元々の発端は http://aclweb.org/anthology/P/P13/P13-2004.pdf 岡野原さんによるレポート http://research.preferred.jp/2010/11/dual-decomposition/双対分解とは,argmax_y( g(y) + h(y) )が解けなくても(NP完全だから),argmax_z,y( g(z) + h(y) ) st. z…

係り受け解析の転移学習

まずはサーベイ資料

ギブスサンプリングの実装

長いことわかっていなかったのだが、実装してようやく頭に入って来た気がする。今回は「道具としてのベイズ統計」涌井良幸 日本実業社 の説明にあるギブスサンプリングをPythonで実装してみた。 パラメータは全部、本にある通り。 #! /usr/bin/python # -*- …

まゆゆの「やびゃあ」を推定するタスクに挑んでみた。

要旨渡辺麻友とは、国民的なアイドルグループAKB48の人気メンバーであり、特に若者層から絶大な支持を受けている大物スターアイドルである。(以下、渡辺麻友のことを、通称「まゆゆ」と表現する)ある調べによると[1]、日本国民の5分の1は彼女を何らかの…

ノンパラベイズをちょっぴりさわってみた

ちょっとだけノンパラベイズをやってみることにした。 幸いにもウルトラわかりやすいスライドがあったので、知っておく程度にうってつけだった。 いつも通りGraham先生のスライドは直感的にわかりやすいようにできている。 http://www.phontron.com/slides/n…

階層ベイズってみた

研究室の先輩から階層ベイズがなかなかGJっていう話を聞いたので、ひとつ勉強してみることにした。しかし、最近のスライドの作り込みはすばらしいですな。 なんか、わかった気になれるwとりあえず、階層ベイズについて理解した概要は 「初期状態と終了状態だ…