2014-01-01から1年間の記事一覧

Semi-Supervised Representation Learning for Cross-Lingual Text Classificationを読んだメモ

Min Xiao and Yuhong Guo, ACL 2013 1 この論文の要旨 要は,多言語文書分類. 従来のやり方だと,単語辞書を使うとか,MTシステムを使うとか,LDAで対訳トピックを抽出して選択的な翻訳をするだとか.そういった方法が使われてきた. この論文では,二段階…

Toward a quantitative approach to online pornography

「人類最古の職業は売春である」という言葉があるくらい,人類は常に性欲とともに生きてきた..と,そういっても過言ではないだろう. 最近では,サルでも類似した能力があると発見されたりしている(参考 そして,アダルトビデオは,性欲と人類の夢とロマ…

numpy型の文字列クラスについて

最近になった知ったことなのだが,NumpyにはPython標準の文字列クラスとは別の'numpy.string_'という型が使われていた. ちなみにunicode型であれば,Numpyでは'numpy.unicode'型に対応している. 調べてみてもそんなに情報がなく,ぼくが見つけられたのは,…

トンでも都市伝説検証番組の中にも光る科学的考察

昔,特命リサーチXという番組がやっていた. wikipediaリンク 世の中の都市伝説を検証するという内容で,けっこう好きだった.あまりにも臭すぎる演出がなんとも笑えるが. 印象に残っているのが,「フィラデルフィアの怪実験」より. 最後の推論はかなりむ…

word2vec利用のおぼえ書き

理論的なことはほとんどわかってない. だけど,単語n-gramをembeddingsと呼ばれるベクトル表現にしてくれることだけはわかっている. そのうち,しっかり勉強しますから...そのうち... とりあえず,「toolとして使う.」を第一目標にしてみた. word2…

liblinear用の特徴量選択

以前,線形分類器であるliblinear向けにグリッド探索をする話を紹介したと思う. 今度は,liblinear向けに特徴量を選択したくなった. 元々,libsvmには特徴量選択スクリプトが存在している. じゃあ,これをちょっと改造すればいいんじゃね?という安易な発…

Introducing PersPred, a syntactic and semantic database for persian complex predicates

ここ数日かけてじっくり読んだ論文.pdfはACL anthologyにあがってる 「次にどんな研究しようかな?」っていう漠然とした気分から,とりあえず最新だし読んでみた. NAACLのMulti Word Expressionのworkshopに投稿された論文.松本先生がペルシア語の複合動…

Openofficeでグラフ出力をするには?

論文を書いていて,いつも頭を悩ませる要因のひとつに,「グラフ」がある. 「どうやって示すのがいいんだろう?」っていうのも悩みの種であるが,それ以上に「どのツールを使ってグラフを示すか?」の方がもっと悩ましい. 普段は大したグラフは書かないの…

ソコトラ島とヤトロファ属の植物

ソコトラ島の話 まるでSF世界のような島ソコトラ島 変わった形の植物があった.その中のひとつ,幹がやったらデブで太く,そのくせ枝は細くて不釣り合いな植物があった. 書き込みを見たら,「ジャトロファ属の植物」と書いてあった.「ジャトロファ属」とは…

Pythonから利用するWordnet

Wordnetとは...プリンストン大学が開発している語データーベースっていう説明でいいのかなあ, 一応,wikipediaの記事を載せておくWordNet 日本語版wordnet(NICTが開発している)だと,日本語で解説されているページがけっこうある.例えばこんなの けど…