2013-01-01から1年間の記事一覧

マルチラベル分類用のライブラリMulanをjythonから使ってみる

マルチラベル問題とは,「ひとつの事例に複数のラベルがつきうる場合の問題」のことを指す. 例えば,文書分類だと,「サッカーのフーリガンのニュース記事はスポーツのジャンルだし,社会のジャンルでもある」っていうラベルが付く場合を指す.こういうマル…

LIBLINEAR用のスケーリングスクリプトとグリッド探索スクリプト

LIBLINEARとは線形分類に特化した分類器である. 簡単な説明とか,使い方は検索すればすぐ出てくると思うが, LIBLINEARを用いた機械学習入門(単語分割) あたりはわかりやすいと思う. 一応,公式ページも載せておく. LIBLINEAR -- A Library for Large Lin…

LDAで,トピックと文書の生成確率を考える

ある時,「LDAのトピックと文書の生成(同時)確率」を求めるにはどうすればいいですか?と聞かれた. 正確には,LDAで生成されるトピックをクラスタと考えて,そのクラスタに文書が属する確率が知りたい.できれば,コードがあるとありがたい.とのことだっ…

よくできたstanford-core-NLPのpythonラッパー

stanford-core-NLPは英語の上でNLPをやっている人なら知ってるものだと思う. 既存のNLP技術を色々盛り込んで一気に使えるようにしてくれている,かなりの優れものだ. スタンフォード大学はこういう点で,本当によい仕事をしていると思う(上から目線だけど…

関西女性の話し方はどうしておもしろいのか?

吹田市にある国立民族博物館に行った時に,偶然にも「ウィークエンドサロン 研究者と話そう」という企画をやっていたので,話を聞いてきた.講演者は民族博物館で機関研究員の金田純平研究員. 金田純平 | 国立民族学博物館講演の主な内容(ここ から引用) …

作業効率アップのためのキー操作

特によく使うGoogle Chromeについて Mac のキーボード ショートカット - Chrome ヘルプMacのウィンドウ切り替えについて アプリ間の切り替えと,同一アプリ間でのウィンドウ切り替えについて 【Mac】ウインドウを切替えるショートカットは変更した方が絶対い…

オランダ語民話データベースからお話本文だけを取得する

オランダ語が(ふつうの人は)わからないので,Googleページ翻訳を使ってページ丸ごと翻訳をオススメするオランダ語民話データベースは Nederlandse Volksverhalenbank具体的なお話はNederlandse Volksverhalenbank | Blader door items 検索オプションをNed…

Gensimを使ったトピック単語抽出 LSAを使ったトピック語抽出まで

以前,ちょろっとだけGensimを使ったことがあったんだけど,久しぶりに本格的に使うことになりそうなので,メモに残しておく Gensimでのコーパスの作り方 - kensuke-miの日記 gensim 文章をベクトル空間にする方法 - kensuke-miの日記インストールができてな…

Word sense disambiguityに関するサーベイ

ペルシア語とオランダ語の単語間(クエリを利用した)翻訳をやりたくて,ちょっとサーベイしていた. ↑絶対,こんなことやろうとしている人間はこれまで1人もいないと断言できる.で,サーベイ中に,こんなpaperを発見してしまった. Word Sense Subjectivi…

昔話の構造分解に関するサーベイ

特に昔話の構造分析では,AT (ATU) 分類が非常に信頼度が高い分類として扱われているらしいので,今回はこれに絞ったサーベイを.ATU分類の概要Anti AarneとStith Tompsonによる分類がAT index(AT分類) 少し前まで(昔話の研究では)世界的に認められてきた…

GUIでも動かせるアノテーションツール

係り受け木のアノテーションを行いたかったので,GUIで動かせるようなアノテーションツールを探していた.すると,こんなツールがあるらしい. brat rapid annotation tool

Perlexの動詞活用に登場する謎の記号について

Perlexの動詞屈折辞には謎の記号が出現する. 例えば3sgPreSubjNegFam n ↙e n £e 2*3plPreSubjNegFam n ↙n n £nのように. はじめはまったく意味がわからなかったのだが,ようやく意味がわかったので,ここに書き記しておく.端的に書くと,「謎の記号は動詞…

Perlexの文字コードが変な件について

前にも何度か紹介したが,lexiconのperlexは屈折辞の展開がされた後は文字化けがおきている.前の記事では,後でpythonスクリプトで修正する方法をとっていたが,特にqとŕで無理があるやり方だった.しかも,その後でまた変な文字化けを見つけたし...(要…

双対分解を理解するノート

元々の発端は http://aclweb.org/anthology/P/P13/P13-2004.pdf 岡野原さんによるレポート http://research.preferred.jp/2010/11/dual-decomposition/双対分解とは,argmax_y( g(y) + h(y) )が解けなくても(NP完全だから),argmax_z,y( g(z) + h(y) ) st. z…

「モーセ5書の成立」を読んだノート

大修館書店の「言語」03年12月号から 大修館書店モーセ5書の成立を紹介している記事.そもそもモーセ5書とは? 旧約聖書の最初の5文書のことを指す.具体的には「創世記,出エジプト記,レビ記,民数記,申命記」のこと. この5書はユダヤ教では別格で…

特集記事:「旧約聖書の言語」のまとめノート

研究室に大修館の「言語」が並んでいるのをふと見た.松本先生が「言語」を愛読しており,バックナンバーが全部そろっているのだとか. ぼくも何冊か読んだことがあるが,(自然)言語好きにはたまらない雑誌だろう. それだけに廃刊になったのは残念.とこ…

pythonの内部表現からxmlへの出力

主に使うのは,etreeオブジェクト.これは標準で入っているモジュール(のはず)なので,一般的な話ができるはず.基本的な書き方は DrunkBoarder · yuki_B's web site XML ドキュメントを作成する - Python Module of the Week を見りゃいいのだが,細かい…

Perlex屈折辞書への屈折辞の追加方法

Perlexの元となっているalexinaのフレームワークでは,主に root辞書 屈折辞辞書 から構成されている. これをmakeすると,屈折活用済みのファイルが出来上がる仕組みになっている.さて,ここで新しく屈折辞を追加する方法を記しておく.いじるファイルはmo…

ペルシア語動詞の屈折辞一覧を作成した

前回はペルシア語名詞の屈折辞一覧表を作成した - kensuke-miの日記で名詞の屈折辞表を作成したが,今回は動詞の屈折辞表を作成した.作成自体はそんなに大変でもないのだが...あまりにも不明な点が多すぎるよ..例えば,全部でカテゴリーは29個存在し…

ペルシア語名詞の屈折辞一覧表を作成した

ペルシア語の屈折辞は他のインド・ヨーロッパ語に比べれば比較的簡単だと言われている.(だれによって?)(←おれによって)というのも格の数もそんなに多いわけではないし,性も消滅している.したがって,格によって多数の屈折辞を持ち,性によって2ない…

ペルシア語の動詞表現〜過去未完了形〜

ペルシア語の中には未完の接頭辞my(直接法)と動詞過去形で「過去未完了形」という時制が構成される. 感覚的に言うと,「過去のある時間範囲で,ある動作や状態が一定時間持続した」という説明になるだろうか.プログラミング的な感覚だと,「現在の時間を…

perlexのバグ情報

Perlexは何度もこのページで紹介しているが,要は形態素辞書.しかし,よくよく調べてみると,不可解な現象がいくつも発生していた. 例えば,以下 anga¹tn 108 V [pred="anga¹tn_____1",cat=V,@2*3plPreparfFam] anga¹tn_____1 Default 2*3p…

ペルシア語の現在語根3人称複数人称における口語化現象

他の言語でもあるように,ペルシア語にも口語と文語で違う箇所は多く存在する.今回は,動詞の現在分詞における3人称複数人称について注目してみる.3人称複数の現在分詞の動詞接尾辞は,文語では-nd.なので,動詞構成はroot+ndになる.ところが,口語で…

係り受け解析の転移学習

まずはサーベイ資料

acute accentの処理

世の中にはacute accentという文字があるそうだ. Charbase U+00B4: ACUTE ACCENTアポストロフィーに形が似ているが,その実体はラテン系の言語に使用するアクセント記号である.Latin-1 supplemetの文字セットの中に含まれている.ところで,acute accentを…

Pythonのxmlパーザ minidom

以前に,xmlからデータの抽出を行う xml.dom.minidom - kensuke-miの日記で,自分で書いたにもかかわらず,また忘れていたので,今回はもう少し書く.あるコーパスがあって,xmlで保存されているのだが,いろいろと扱いづらい(タグが日本語で記述されている…

xmlの整形

例えば,すべてが一行でつながってしまっているxmlがあったとする. でも,そのままではlessコマンドが使えなかったりと,とんでもなく扱いづらい.そこで,使うのが $ xmllint --format <XML>ここから XML を整形して表示 - kameidの備忘録 - Sharpen the Saw!も</xml>…

perlexを読み解く

Perlexはペルシア語向けに作成された語彙辞書システムのことである. Alexinaという語彙辞書フレームワークの上に構築されており,2013年現在では,間違いなく無料で使用できる最大の言語資源である.しかし,このperlexの最大の欠点は,「説明がないこと」…

ペルシア語の形態素解析器を作る話

タイトルの内容について,1ヶ月近く取り組んでみたので,そろそろ書いてみる.そもそも目的は,「口承文芸コーパス」というペルシア語の口承(口伝えのお話)話を記録するという既存のコーパスがあって,それに言語情報をつけていく.が目標で,どうして形…

Foma ~finite-state compiler and C library~

ちょっと前から自分の研究内容にFomaというFST構築ツールを使っている.何をするのか?というと,要は「FSTネットワークを作ってくれますよ」 以上! 何に使うかと言うと,代表例「形態素形跡」 以上!で,すめば良いのだが,Foma scriptというのを定義しな…