2012-11-01から1ヶ月間の記事一覧

Mac Book proでTexの環境を整えた。

ようやく整えた。 やっぱり必要に迫られないと、こういうのはやらないらしい。その時の参考にしたサイトメモ。http://bhby39.blogspot.jp/2012/09/tex.htmlhttp://at-aka.blogspot.jp/2012/02/lion-tex-tex-live.html まだ、フォントに関する設定はしてない…

パスの通し方

2回に1回くらい、パスの通し方を忘れる。 頭、弱いので。そうなると、2回に1回くらい「パスを通すってどういうことだっけ?」となる。 つまり、4回に1回くらいパスを通す意味がわからなくなる。 頭、弱いので。そこで、覚書。 http://www.r-styles.net…

リストの要素の順番を逆にする方法

結論から言うと、 [x for x in reversed(l)] でおk。http://inforno.net/articles/2007/05/13/python-reversed-list に載っていた。

木の高さの計り方

Lijun Feng+ "A Comparison of Features for Automatic Readability Assessment" の実装をしようとしていた時の疑問。このpaperの中では、木の高さ(Tree height)が素性として使われる。 じゃあ、コードにする時には木の高さをどうするのさ?という話。たぶ…

重複した要素を持つリストを解決する方法

結果的に リストがlistという名前の時 list(set(list))とすれば、重複した要素はなくなる このサイトが参考になる http://www44.atwiki.jp/keisks/pages/83.htmlあと、こっちの方が少し詳しいかもしれない http://d.hatena.ne.jp/t-fridge/20080323/12062179…

Gensimでのコーパスの作り方

http://radimrehurek.com/gensim/tut1.htmlこのページを見るのは二回目だけど。 ようやくまともにコーパスの作り方がわかったので、書き記しておく。考え方としてはページでのコーパスの作り方をひとつの関数としてみなす。 すると、入力は >>> documents = …

TreeTaggerを使ったときの覚書

とある課題でTreeTaggerを使ってhogehogeしなさい。というのがあったので、やった。 その時の覚書。使った素材は http://www.gutenberg.org/cache/epub/41425/pg41425.txt Under star-spangled banner 邦訳にすると「星条旗の元で」なのかな?まず、TreeTgge…

Charniak Parserインストールメモ

Charniak Parserをインストールしようとした(だけで)相当に手間取った。 http://www.cs.brown.edu/~ec/#softwareまず、第一の関門。どれかCharniak Parserなのかわからない。これはアドバイスをもらってftp://ftp.cs.brown.edu/pub/nlparser/ のparser*.ta…

gensim 文章をベクトル空間にする方法

http://radimrehurek.com/gensim/tut1.htmlを見れば大体は書いてある。このページで紹介されている方法は二種類あって、1つはテキストを一気にメモリに載せて変換する方法。2つめは順番にベクトル空間に変えていく方法。1つ目のやり方だと、 dictionary =…

KNPをサーバーで動かそうとして失敗した

KNPの動作にはTinyCDBが必要で、これがないとconfigureが通らない。 そこで、TinyCDBのMakefileの中身を prefix=/自分のホームディレクトリに書き換えてmake installした。 何もエラーメッセージがでないので、TinyCDB自体はうまくインストールできているの…

TesseractでOCRをしようとしたら見事に失敗した

どうしてもOCRを使う用事があったのだが、Adobeとか持ってないので、フリーのTesseractでやったれ!と思い、Tesseractでやろうとした。とりあえず、インストールは簡単。macportで入れるだけ。ただ、Tesseractはpdfは読んでくれず、入力はTiffでなければなら…

イテレーターとジェネレーターの解釈

みんなのPython p.214からイテレーターの概念で引っかかってしまったので、(一応)理解するよう努力した。イテレーターは「順序がないデータ構造に、順番を与えてやって、順番に処理していく機能(手法)」と解釈した。具体的な使い方は、「順番がないデー…

主成分分析をきちっと理解する〜Rをうまく使う〜

まず、はじめてわかったことがひとつ。 それは主成分分析といってもやり方がふたつあるということ。ひとつは相関係数行列を用いるやり方。 もうひとつは分散共分散行列を用いるやり方。Rでは主成分分析用の関数にprincompが用意されているが、princompのcor…

Gensimの使い方 ~Modelの作り方編~

主に見るべきところ http://radimrehurek.com/gensim/tut2.htmlTf-idモデルとLSIモデルの構築の仕方が書いてある。ページを見る限りはモデルの構築方法は>> models.Tfidf(対象コーパス)でいいみたい。 ちなみにここでの対象コーパスはbag-of-wordで(素性No,…

思い立っても使えないgensim

ふと、思うことがあってGensimを使ってみようとチュートリアル通りにコマンドを入れてみたが、動かない。corpus = corpora.MmCorpus('/path/to/corpus.mm')というところで>>> corpus = corpora.MmCorpus('/path/to/corpus.mm') Traceback (most recent call …

主成分分析をきちっと理解する

実のところまだ理解はできてないが、資料がたくさんありすぎるので、一度まとめてみることにした。一番、直感的にわかりやすかったのが、 http://www.kwansei.ac.jp/hs/z90010/sugakuc/toukei/toukeihy.htmだけど、実は導出法に関しては何も述べていないので…

RでMecab使えるようにした

R

LSIのコードを走らせてみたかったので、Mecabを入れることにした。 http://d.hatena.ne.jp/a_bicky/20120324/1332591498 (本当に参考になる) RにはRMeCabというインターフェースが用意されているので、これまた助かる。ちょっとだけ手間取ったのが、Rでの…

ポアソン分布についての個人的なまとめ

直感的にわかりやすかったのが、 http://oku.edu.mie-u.ac.jp/~okumura/stat/poisson.php ただ、「もう少し説明が欲しいな」という時に、 http://www.f-denshi.com/000TokiwaJPN/17kakto/100prob.html※特にこのサイトでは、「ジローくんがコップを割る確率」…

Rのデータ構造ってすごく多かった

R

何にもわかってないままに始めたので最初のうちはよかったんだけど、後半になるにつれて「ん、何かおかしいぞ?」ということがたびたび出て来た。というのも、Rのデータ構造の基本はすべてベクトル構造になっていたからであった。 だから、1と入力したつもり…

Rの分布関数命名規則

R

いままで知らなかったけど、命名規則ってのがあるみたいで。http://www.okada.jp.org/RWiki/?R%A4%CB%A4%AA%A4%B1%A4%EB%B3%CE%CE%A8%CA%AC%C9%DBそもそもRの基礎操作は http://takenaka-akio.org/doc/r_auto/chapter_05.html行列操作に関して参考になったの…

Stanford NERからStanford CoreNLPへ

Stanford NERのコマンドの謎は解決したが、相変わらずPython interfaceは謎のままだった。そこで、Stanford NERを含むToolkitのStanford Core NLPを教えてもらった。 このPython interfaceならキチンと動く(らしい)http://nlp.stanford.edu/software/coren…

OpenNLPのNamed Entity ではできないこと

OpenNLPに実装されているNamed Entity では残念ながら欧米人の名前しか認識してくれない。 これでは困る。アジア人の名前のほとんどが認識できなければ、そんなの使い物にならない。というわけで、別の固有名詞を探してくれる何かがないかあと思って探してい…

すぐ忘れる脳のためのメモ_管理者権限なしの時にpython install

毎週のようにやっているはずなのに、すぐに忘れる。 毎回調べるのも面倒きわまりないので、書き残しておくことにした。python installの時はこのコマンド$ python setup.py install --prefix=~/以上

レイリー商について調べてみた

レイリー商というのを初めて知った。いまいち使い方がわからなかったので、調べてみた。式が X^T*A*X (XとAはそれぞれ行列)の時、これの最大値、最小値は、Aの固有値に等しい。というものだった。つまり、X^T*A*X の最大値、最小値が知りたければ、Aの固有…

正規分布の基礎を忘れたときには

ここのサイトにお世話になる。基礎のことがしっかりと書かれていてものすごく助かる。http://www.kwansei.ac.jp/hs/z90010/sugakuc/toukei/seiki/seiki.htm#%90%B3%8BK%95%AA%95z

A Comparison of Features for Automatic Readability Assessmentの追試でやるべきこと

A Comparison of Features for Automatic Readability Assessment の追試で実験を進めていこうと思っているが、どうせノートに書いても忘れるので、代わりにここにでも書いておく。3.1 Discourse Featureの素性3.1.1 Entity-Density FeaturesはOpen NLPのNam…

すぐ忘れる脳のためのメモ_対話型画面でのスクリプトのimport方法

http://dennoh-guerrilla.blogspot.jp/2012/01/python.htmlにまんま書いてあるが、対象ディレクトリで対話型画面を起動して>>> import スクリプト名を実行するだけでよかった。 変に.pyとか入れるんだっけとか?考えて余計な時間を食った。ちなみにやりたか…