Toward a quantitative approach to online pornography

「人類最古の職業は売春である」という言葉があるくらい,人類は常に性欲とともに生きてきた..と,そういっても過言ではないだろう. 最近では,サルでも類似した能力があると発見されたりしている(参考 そして,アダルトビデオは,性欲と人類の夢とロマ…

numpy型の文字列クラスについて

最近になった知ったことなのだが,NumpyにはPython標準の文字列クラスとは別の'numpy.string_'という型が使われていた. ちなみにunicode型であれば,Numpyでは'numpy.unicode'型に対応している. 調べてみてもそんなに情報がなく,ぼくが見つけられたのは,…

トンでも都市伝説検証番組の中にも光る科学的考察

昔,特命リサーチXという番組がやっていた. wikipediaリンク 世の中の都市伝説を検証するという内容で,けっこう好きだった.あまりにも臭すぎる演出がなんとも笑えるが. 印象に残っているのが,「フィラデルフィアの怪実験」より. 最後の推論はかなりむ…

word2vec利用のおぼえ書き

理論的なことはほとんどわかってない. だけど,単語n-gramをembeddingsと呼ばれるベクトル表現にしてくれることだけはわかっている. そのうち,しっかり勉強しますから...そのうち... とりあえず,「toolとして使う.」を第一目標にしてみた. word2…

liblinear用の特徴量選択

以前,線形分類器であるliblinear向けにグリッド探索をする話を紹介したと思う. 今度は,liblinear向けに特徴量を選択したくなった. 元々,libsvmには特徴量選択スクリプトが存在している. じゃあ,これをちょっと改造すればいいんじゃね?という安易な発…

Introducing PersPred, a syntactic and semantic database for persian complex predicates

ここ数日かけてじっくり読んだ論文.pdfはACL anthologyにあがってる 「次にどんな研究しようかな?」っていう漠然とした気分から,とりあえず最新だし読んでみた. NAACLのMulti Word Expressionのworkshopに投稿された論文.松本先生がペルシア語の複合動…

Openofficeでグラフ出力をするには?

論文を書いていて,いつも頭を悩ませる要因のひとつに,「グラフ」がある. 「どうやって示すのがいいんだろう?」っていうのも悩みの種であるが,それ以上に「どのツールを使ってグラフを示すか?」の方がもっと悩ましい. 普段は大したグラフは書かないの…

ソコトラ島とヤトロファ属の植物

ソコトラ島の話 まるでSF世界のような島ソコトラ島 変わった形の植物があった.その中のひとつ,幹がやったらデブで太く,そのくせ枝は細くて不釣り合いな植物があった. 書き込みを見たら,「ジャトロファ属の植物」と書いてあった.「ジャトロファ属」とは…

Pythonから利用するWordnet

Wordnetとは...プリンストン大学が開発している語データーベースっていう説明でいいのかなあ, 一応,wikipediaの記事を載せておくWordNet 日本語版wordnet(NICTが開発している)だと,日本語で解説されているページがけっこうある.例えばこんなの けど…

マルチラベル分類用のライブラリMulanをjythonから使ってみる

マルチラベル問題とは,「ひとつの事例に複数のラベルがつきうる場合の問題」のことを指す. 例えば,文書分類だと,「サッカーのフーリガンのニュース記事はスポーツのジャンルだし,社会のジャンルでもある」っていうラベルが付く場合を指す.こういうマル…

LIBLINEAR用のスケーリングスクリプトとグリッド探索スクリプト

LIBLINEARとは線形分類に特化した分類器である. 簡単な説明とか,使い方は検索すればすぐ出てくると思うが, LIBLINEARを用いた機械学習入門(単語分割) あたりはわかりやすいと思う. 一応,公式ページも載せておく. LIBLINEAR -- A Library for Large Lin…

LDAで,トピックと文書の生成確率を考える

ある時,「LDAのトピックと文書の生成(同時)確率」を求めるにはどうすればいいですか?と聞かれた. 正確には,LDAで生成されるトピックをクラスタと考えて,そのクラスタに文書が属する確率が知りたい.できれば,コードがあるとありがたい.とのことだっ…

よくできたstanford-core-NLPのpythonラッパー

stanford-core-NLPは英語の上でNLPをやっている人なら知ってるものだと思う. 既存のNLP技術を色々盛り込んで一気に使えるようにしてくれている,かなりの優れものだ. スタンフォード大学はこういう点で,本当によい仕事をしていると思う(上から目線だけど…

関西女性の話し方はどうしておもしろいのか?

吹田市にある国立民族博物館に行った時に,偶然にも「ウィークエンドサロン 研究者と話そう」という企画をやっていたので,話を聞いてきた.講演者は民族博物館で機関研究員の金田純平研究員. 金田純平 | 国立民族学博物館講演の主な内容(ここ から引用) …

作業効率アップのためのキー操作

特によく使うGoogle Chromeについて Mac のキーボード ショートカット - Chrome ヘルプMacのウィンドウ切り替えについて アプリ間の切り替えと,同一アプリ間でのウィンドウ切り替えについて 【Mac】ウインドウを切替えるショートカットは変更した方が絶対い…

オランダ語民話データベースからお話本文だけを取得する

オランダ語が(ふつうの人は)わからないので,Googleページ翻訳を使ってページ丸ごと翻訳をオススメするオランダ語民話データベースは Nederlandse Volksverhalenbank具体的なお話はNederlandse Volksverhalenbank | Blader door items 検索オプションをNed…

Gensimを使ったトピック単語抽出 LSAを使ったトピック語抽出まで

以前,ちょろっとだけGensimを使ったことがあったんだけど,久しぶりに本格的に使うことになりそうなので,メモに残しておく Gensimでのコーパスの作り方 - kensuke-miの日記 gensim 文章をベクトル空間にする方法 - kensuke-miの日記インストールができてな…

Word sense disambiguityに関するサーベイ

ペルシア語とオランダ語の単語間(クエリを利用した)翻訳をやりたくて,ちょっとサーベイしていた. ↑絶対,こんなことやろうとしている人間はこれまで1人もいないと断言できる.で,サーベイ中に,こんなpaperを発見してしまった. Word Sense Subjectivi…

昔話の構造分解に関するサーベイ

特に昔話の構造分析では,AT (ATU) 分類が非常に信頼度が高い分類として扱われているらしいので,今回はこれに絞ったサーベイを.ATU分類の概要Anti AarneとStith Tompsonによる分類がAT index(AT分類) 少し前まで(昔話の研究では)世界的に認められてきた…

GUIでも動かせるアノテーションツール

係り受け木のアノテーションを行いたかったので,GUIで動かせるようなアノテーションツールを探していた.すると,こんなツールがあるらしい. brat rapid annotation tool

Perlexの動詞活用に登場する謎の記号について

Perlexの動詞屈折辞には謎の記号が出現する. 例えば3sgPreSubjNegFam n ↙e n £e 2*3plPreSubjNegFam n ↙n n £nのように. はじめはまったく意味がわからなかったのだが,ようやく意味がわかったので,ここに書き記しておく.端的に書くと,「謎の記号は動詞…

Perlexの文字コードが変な件について

前にも何度か紹介したが,lexiconのperlexは屈折辞の展開がされた後は文字化けがおきている.前の記事では,後でpythonスクリプトで修正する方法をとっていたが,特にqとŕで無理があるやり方だった.しかも,その後でまた変な文字化けを見つけたし...(要…

双対分解を理解するノート

元々の発端は http://aclweb.org/anthology/P/P13/P13-2004.pdf 岡野原さんによるレポート http://research.preferred.jp/2010/11/dual-decomposition/双対分解とは,argmax_y( g(y) + h(y) )が解けなくても(NP完全だから),argmax_z,y( g(z) + h(y) ) st. z…

「モーセ5書の成立」を読んだノート

大修館書店の「言語」03年12月号から 大修館書店モーセ5書の成立を紹介している記事.そもそもモーセ5書とは? 旧約聖書の最初の5文書のことを指す.具体的には「創世記,出エジプト記,レビ記,民数記,申命記」のこと. この5書はユダヤ教では別格で…

特集記事:「旧約聖書の言語」のまとめノート

研究室に大修館の「言語」が並んでいるのをふと見た.松本先生が「言語」を愛読しており,バックナンバーが全部そろっているのだとか. ぼくも何冊か読んだことがあるが,(自然)言語好きにはたまらない雑誌だろう. それだけに廃刊になったのは残念.とこ…

pythonの内部表現からxmlへの出力

主に使うのは,etreeオブジェクト.これは標準で入っているモジュール(のはず)なので,一般的な話ができるはず.基本的な書き方は DrunkBoarder · yuki_B's web site XML ドキュメントを作成する - Python Module of the Week を見りゃいいのだが,細かい…

Perlex屈折辞書への屈折辞の追加方法

Perlexの元となっているalexinaのフレームワークでは,主に root辞書 屈折辞辞書 から構成されている. これをmakeすると,屈折活用済みのファイルが出来上がる仕組みになっている.さて,ここで新しく屈折辞を追加する方法を記しておく.いじるファイルはmo…

ペルシア語動詞の屈折辞一覧を作成した

前回はペルシア語名詞の屈折辞一覧表を作成した - kensuke-miの日記で名詞の屈折辞表を作成したが,今回は動詞の屈折辞表を作成した.作成自体はそんなに大変でもないのだが...あまりにも不明な点が多すぎるよ..例えば,全部でカテゴリーは29個存在し…

ペルシア語名詞の屈折辞一覧表を作成した

ペルシア語の屈折辞は他のインド・ヨーロッパ語に比べれば比較的簡単だと言われている.(だれによって?)(←おれによって)というのも格の数もそんなに多いわけではないし,性も消滅している.したがって,格によって多数の屈折辞を持ち,性によって2ない…

ペルシア語の動詞表現〜過去未完了形〜

ペルシア語の中には未完の接頭辞my(直接法)と動詞過去形で「過去未完了形」という時制が構成される. 感覚的に言うと,「過去のある時間範囲で,ある動作や状態が一定時間持続した」という説明になるだろうか.プログラミング的な感覚だと,「現在の時間を…