マルチラベル分類用のライブラリMulanをjythonから使ってみる

Python 機械学習など

マルチラベル問題とは，「ひとつの事例に複数のラベルがつきうる場合の問題」のことを指す．例えば，文書分類だと，「サッカーのフーリガンのニュース記事はスポーツのジャンルだし，社会のジャンルでもある」っていうラベルが付く場合を指す．こういうマル…

2013-12-02

LIBLINEAR用のスケーリングスクリプトとグリッド探索スクリプト

機械学習など

LIBLINEARとは線形分類に特化した分類器である．簡単な説明とか，使い方は検索すればすぐ出てくると思うが， LIBLINEARを用いた機械学習入門(単語分割) あたりはわかりやすいと思う．一応，公式ページも載せておく． LIBLINEAR -- A Library for Large Lin…

2013-11-29

LDAで，トピックと文書の生成確率を考える

Python

ある時，「LDAのトピックと文書の生成（同時）確率」を求めるにはどうすればいいですか？と聞かれた．正確には，LDAで生成されるトピックをクラスタと考えて，そのクラスタに文書が属する確率が知りたい．できれば，コードがあるとありがたい．とのことだっ…

2013-11-06

よくできたstanford-core-NLPのpythonラッパー

Python

stanford-core-NLPは英語の上でNLPをやっている人なら知ってるものだと思う．既存のNLP技術を色々盛り込んで一気に使えるようにしてくれている，かなりの優れものだ．スタンフォード大学はこういう点で，本当によい仕事をしていると思う（上から目線だけど…

2013-10-27

関西女性の話し方はどうしておもしろいのか？

その他もろもろ

吹田市にある国立民族博物館に行った時に，偶然にも「ウィークエンドサロン研究者と話そう」という企画をやっていたので，話を聞いてきた．講演者は民族博物館で機関研究員の金田純平研究員．金田純平 | 国立民族学博物館講演の主な内容（ここから引用） …

2013-10-26

作業効率アップのためのキー操作

その他もろもろ

特によく使うGoogle Chromeについて Mac のキーボードショートカット - Chrome ヘルプMacのウィンドウ切り替えについてアプリ間の切り替えと，同一アプリ間でのウィンドウ切り替えについて【Mac】ウインドウを切替えるショートカットは変更した方が絶対い…

2013-10-22

オランダ語民話データベースからお話本文だけを取得する

お話の構造論

オランダ語が（ふつうの人は）わからないので，Googleページ翻訳を使ってページ丸ごと翻訳をオススメするオランダ語民話データベースは Nederlandse Volksverhalenbank具体的なお話はNederlandse Volksverhalenbank | Blader door items 検索オプションをNed…

2013-10-21

Gensimを使ったトピック単語抽出 LSAを使ったトピック語抽出まで

Python

以前，ちょろっとだけGensimを使ったことがあったんだけど，久しぶりに本格的に使うことになりそうなので，メモに残しておく Gensimでのコーパスの作り方 - kensuke-miの日記 gensim 文章をベクトル空間にする方法 - kensuke-miの日記インストールができてな…

2013-10-21

Word sense disambiguityに関するサーベイ

論文メモ

ペルシア語とオランダ語の単語間（クエリを利用した）翻訳をやりたくて，ちょっとサーベイしていた． ↑絶対，こんなことやろうとしている人間はこれまで１人もいないと断言できる．で，サーベイ中に，こんなpaperを発見してしまった． Word Sense Subjectivi…

2013-10-20

昔話の構造分解に関するサーベイ

お話の構造論

特に昔話の構造分析では，AT (ATU) 分類が非常に信頼度が高い分類として扱われているらしいので，今回はこれに絞ったサーベイを．ATU分類の概要Anti AarneとStith Tompsonによる分類がAT index(AT分類) 少し前まで（昔話の研究では）世界的に認められてきた…

2013-10-14

GUIでも動かせるアノテーションツール

環境整備

係り受け木のアノテーションを行いたかったので，GUIで動かせるようなアノテーションツールを探していた．すると，こんなツールがあるらしい． brat rapid annotation tool

2013-10-06

Perlexの動詞活用に登場する謎の記号について

Persian_NLP

Perlexの動詞屈折辞には謎の記号が出現する．例えば3sgPreSubjNegFam n ↙e n £e 2*3plPreSubjNegFam n ↙n n £nのように．はじめはまったく意味がわからなかったのだが，ようやく意味がわかったので，ここに書き記しておく．端的に書くと，「謎の記号は動詞…

2013-10-04

Perlexの文字コードが変な件について

Persian_NLP

前にも何度か紹介したが，lexiconのperlexは屈折辞の展開がされた後は文字化けがおきている．前の記事では，後でpythonスクリプトで修正する方法をとっていたが，特にqとŕで無理があるやり方だった．しかも，その後でまた変な文字化けを見つけたし．．．（要…

2013-10-02

双対分解を理解するノート

機械学習など

元々の発端は http://aclweb.org/anthology/P/P13/P13-2004.pdf 岡野原さんによるレポート http://research.preferred.jp/2010/11/dual-decomposition/双対分解とは，argmax_y( g(y) + h(y) )が解けなくても(NP完全だから)，argmax_z,y( g(z) + h(y) ) st. z…

2013-10-02

「モーセ５書の成立」を読んだノート

言語一般

大修館書店の「言語」03年１２月号から大修館書店モーセ５書の成立を紹介している記事．そもそもモーセ５書とは？旧約聖書の最初の５文書のことを指す．具体的には「創世記，出エジプト記，レビ記，民数記，申命記」のこと．この５書はユダヤ教では別格で…

2013-10-02

特集記事：「旧約聖書の言語」のまとめノート

言語一般

研究室に大修館の「言語」が並んでいるのをふと見た．松本先生が「言語」を愛読しており，バックナンバーが全部そろっているのだとか．ぼくも何冊か読んだことがあるが，（自然）言語好きにはたまらない雑誌だろう．それだけに廃刊になったのは残念．とこ…

2013-09-29

pythonの内部表現からxmlへの出力

Python

主に使うのは，etreeオブジェクト．これは標準で入っているモジュール（のはず）なので，一般的な話ができるはず．基本的な書き方は DrunkBoarder · yuki_B's web site XML ドキュメントを作成する - Python Module of the Week を見りゃいいのだが，細かい…

2013-09-28

Perlex屈折辞書への屈折辞の追加方法

Persian_NLP

Perlexの元となっているalexinaのフレームワークでは，主に root辞書屈折辞辞書から構成されている．これをmakeすると，屈折活用済みのファイルが出来上がる仕組みになっている．さて，ここで新しく屈折辞を追加する方法を記しておく．いじるファイルはmo…

2013-09-27

ペルシア語動詞の屈折辞一覧を作成した

Persian_NLP ペルシア語文法

前回はペルシア語名詞の屈折辞一覧表を作成した - kensuke-miの日記で名詞の屈折辞表を作成したが，今回は動詞の屈折辞表を作成した．作成自体はそんなに大変でもないのだが．．．あまりにも不明な点が多すぎるよ．．例えば，全部でカテゴリーは２９個存在し…

2013-09-25

ペルシア語名詞の屈折辞一覧表を作成した

Persian_NLP ペルシア語文法

ペルシア語の屈折辞は他のインド・ヨーロッパ語に比べれば比較的簡単だと言われている．（だれによって？）（←おれによって）というのも格の数もそんなに多いわけではないし，性も消滅している．したがって，格によって多数の屈折辞を持ち，性によって２ない…

2013-09-24

ペルシア語の動詞表現〜過去未完了形〜

Persian_NLP ペルシア語文法

ペルシア語の中には未完の接頭辞my（直接法）と動詞過去形で「過去未完了形」という時制が構成される．感覚的に言うと，「過去のある時間範囲で，ある動作や状態が一定時間持続した」という説明になるだろうか．プログラミング的な感覚だと，「現在の時間を…

2013-09-24

perlexのバグ情報

Python Persian_NLP

Perlexは何度もこのページで紹介しているが，要は形態素辞書．しかし，よくよく調べてみると，不可解な現象がいくつも発生していた．例えば，以下 anga¹tn 108 V [pred="anga¹tn_____1",cat=V,@2*3plPreparfFam] anga¹tn_____1 Default 2*3p…

2013-09-24

ペルシア語の現在語根３人称複数人称における口語化現象

Persian_NLP ペルシア語文法

他の言語でもあるように，ペルシア語にも口語と文語で違う箇所は多く存在する．今回は，動詞の現在分詞における３人称複数人称について注目してみる．３人称複数の現在分詞の動詞接尾辞は，文語では-nd．なので，動詞構成はroot+ndになる．ところが，口語で…

2013-09-20

係り受け解析の転移学習

機械学習など

まずはサーベイ資料

2013-09-14

acute accentの処理

Python

世の中にはacute accentという文字があるそうだ． Charbase U+00B4: ACUTE ACCENTアポストロフィーに形が似ているが，その実体はラテン系の言語に使用するアクセント記号である．Latin-1 supplemetの文字セットの中に含まれている．ところで，acute accentを…

2013-09-14

Pythonのxmlパーザ minidom

Python

以前に，xmlからデータの抽出を行う xml.dom.minidom - kensuke-miの日記で，自分で書いたにもかかわらず，また忘れていたので，今回はもう少し書く．あるコーパスがあって，xmlで保存されているのだが，いろいろと扱いづらい（タグが日本語で記述されている…

2013-09-12

xmlの整形

その他もろもろ

例えば，すべてが一行でつながってしまっているxmlがあったとする．でも，そのままではlessコマンドが使えなかったりと，とんでもなく扱いづらい．そこで，使うのが $ xmllint --format <XML>ここから XML を整形して表示 - kameidの備忘録 - Sharpen the Saw!も</xml>…