2012-11-01から1ヶ月間の記事一覧
ようやく整えた。 やっぱり必要に迫られないと、こういうのはやらないらしい。その時の参考にしたサイトメモ。http://bhby39.blogspot.jp/2012/09/tex.htmlhttp://at-aka.blogspot.jp/2012/02/lion-tex-tex-live.html まだ、フォントに関する設定はしてない…
2回に1回くらい、パスの通し方を忘れる。 頭、弱いので。そうなると、2回に1回くらい「パスを通すってどういうことだっけ?」となる。 つまり、4回に1回くらいパスを通す意味がわからなくなる。 頭、弱いので。そこで、覚書。 http://www.r-styles.net…
結論から言うと、 [x for x in reversed(l)] でおk。http://inforno.net/articles/2007/05/13/python-reversed-list に載っていた。
Lijun Feng+ "A Comparison of Features for Automatic Readability Assessment" の実装をしようとしていた時の疑問。このpaperの中では、木の高さ(Tree height)が素性として使われる。 じゃあ、コードにする時には木の高さをどうするのさ?という話。たぶ…
結果的に リストがlistという名前の時 list(set(list))とすれば、重複した要素はなくなる このサイトが参考になる http://www44.atwiki.jp/keisks/pages/83.htmlあと、こっちの方が少し詳しいかもしれない http://d.hatena.ne.jp/t-fridge/20080323/12062179…
http://radimrehurek.com/gensim/tut1.htmlこのページを見るのは二回目だけど。 ようやくまともにコーパスの作り方がわかったので、書き記しておく。考え方としてはページでのコーパスの作り方をひとつの関数としてみなす。 すると、入力は >>> documents = …
とある課題でTreeTaggerを使ってhogehogeしなさい。というのがあったので、やった。 その時の覚書。使った素材は http://www.gutenberg.org/cache/epub/41425/pg41425.txt Under star-spangled banner 邦訳にすると「星条旗の元で」なのかな?まず、TreeTgge…
Charniak Parserをインストールしようとした(だけで)相当に手間取った。 http://www.cs.brown.edu/~ec/#softwareまず、第一の関門。どれかCharniak Parserなのかわからない。これはアドバイスをもらってftp://ftp.cs.brown.edu/pub/nlparser/ のparser*.ta…
http://radimrehurek.com/gensim/tut1.htmlを見れば大体は書いてある。このページで紹介されている方法は二種類あって、1つはテキストを一気にメモリに載せて変換する方法。2つめは順番にベクトル空間に変えていく方法。1つ目のやり方だと、 dictionary =…
KNPの動作にはTinyCDBが必要で、これがないとconfigureが通らない。 そこで、TinyCDBのMakefileの中身を prefix=/自分のホームディレクトリに書き換えてmake installした。 何もエラーメッセージがでないので、TinyCDB自体はうまくインストールできているの…
どうしてもOCRを使う用事があったのだが、Adobeとか持ってないので、フリーのTesseractでやったれ!と思い、Tesseractでやろうとした。とりあえず、インストールは簡単。macportで入れるだけ。ただ、Tesseractはpdfは読んでくれず、入力はTiffでなければなら…
みんなのPython p.214からイテレーターの概念で引っかかってしまったので、(一応)理解するよう努力した。イテレーターは「順序がないデータ構造に、順番を与えてやって、順番に処理していく機能(手法)」と解釈した。具体的な使い方は、「順番がないデー…
まず、はじめてわかったことがひとつ。 それは主成分分析といってもやり方がふたつあるということ。ひとつは相関係数行列を用いるやり方。 もうひとつは分散共分散行列を用いるやり方。Rでは主成分分析用の関数にprincompが用意されているが、princompのcor…
主に見るべきところ http://radimrehurek.com/gensim/tut2.htmlTf-idモデルとLSIモデルの構築の仕方が書いてある。ページを見る限りはモデルの構築方法は>> models.Tfidf(対象コーパス)でいいみたい。 ちなみにここでの対象コーパスはbag-of-wordで(素性No,…
ふと、思うことがあってGensimを使ってみようとチュートリアル通りにコマンドを入れてみたが、動かない。corpus = corpora.MmCorpus('/path/to/corpus.mm')というところで>>> corpus = corpora.MmCorpus('/path/to/corpus.mm') Traceback (most recent call …
実のところまだ理解はできてないが、資料がたくさんありすぎるので、一度まとめてみることにした。一番、直感的にわかりやすかったのが、 http://www.kwansei.ac.jp/hs/z90010/sugakuc/toukei/toukeihy.htmだけど、実は導出法に関しては何も述べていないので…
LSIのコードを走らせてみたかったので、Mecabを入れることにした。 http://d.hatena.ne.jp/a_bicky/20120324/1332591498 (本当に参考になる) RにはRMeCabというインターフェースが用意されているので、これまた助かる。ちょっとだけ手間取ったのが、Rでの…
直感的にわかりやすかったのが、 http://oku.edu.mie-u.ac.jp/~okumura/stat/poisson.php ただ、「もう少し説明が欲しいな」という時に、 http://www.f-denshi.com/000TokiwaJPN/17kakto/100prob.html※特にこのサイトでは、「ジローくんがコップを割る確率」…
何にもわかってないままに始めたので最初のうちはよかったんだけど、後半になるにつれて「ん、何かおかしいぞ?」ということがたびたび出て来た。というのも、Rのデータ構造の基本はすべてベクトル構造になっていたからであった。 だから、1と入力したつもり…
いままで知らなかったけど、命名規則ってのがあるみたいで。http://www.okada.jp.org/RWiki/?R%A4%CB%A4%AA%A4%B1%A4%EB%B3%CE%CE%A8%CA%AC%C9%DBそもそもRの基礎操作は http://takenaka-akio.org/doc/r_auto/chapter_05.html行列操作に関して参考になったの…
Stanford NERのコマンドの謎は解決したが、相変わらずPython interfaceは謎のままだった。そこで、Stanford NERを含むToolkitのStanford Core NLPを教えてもらった。 このPython interfaceならキチンと動く(らしい)http://nlp.stanford.edu/software/coren…
OpenNLPに実装されているNamed Entity では残念ながら欧米人の名前しか認識してくれない。 これでは困る。アジア人の名前のほとんどが認識できなければ、そんなの使い物にならない。というわけで、別の固有名詞を探してくれる何かがないかあと思って探してい…
毎週のようにやっているはずなのに、すぐに忘れる。 毎回調べるのも面倒きわまりないので、書き残しておくことにした。python installの時はこのコマンド$ python setup.py install --prefix=~/以上
レイリー商というのを初めて知った。いまいち使い方がわからなかったので、調べてみた。式が X^T*A*X (XとAはそれぞれ行列)の時、これの最大値、最小値は、Aの固有値に等しい。というものだった。つまり、X^T*A*X の最大値、最小値が知りたければ、Aの固有…
ここのサイトにお世話になる。基礎のことがしっかりと書かれていてものすごく助かる。http://www.kwansei.ac.jp/hs/z90010/sugakuc/toukei/seiki/seiki.htm#%90%B3%8BK%95%AA%95z
A Comparison of Features for Automatic Readability Assessment の追試で実験を進めていこうと思っているが、どうせノートに書いても忘れるので、代わりにここにでも書いておく。3.1 Discourse Featureの素性3.1.1 Entity-Density FeaturesはOpen NLPのNam…
http://dennoh-guerrilla.blogspot.jp/2012/01/python.htmlにまんま書いてあるが、対象ディレクトリで対話型画面を起動して>>> import スクリプト名を実行するだけでよかった。 変に.pyとか入れるんだっけとか?考えて余計な時間を食った。ちなみにやりたか…