2012-01-01から1年間の記事一覧
直感的にわかりやすかったのが、 http://oku.edu.mie-u.ac.jp/~okumura/stat/poisson.php ただ、「もう少し説明が欲しいな」という時に、 http://www.f-denshi.com/000TokiwaJPN/17kakto/100prob.html※特にこのサイトでは、「ジローくんがコップを割る確率」…
何にもわかってないままに始めたので最初のうちはよかったんだけど、後半になるにつれて「ん、何かおかしいぞ?」ということがたびたび出て来た。というのも、Rのデータ構造の基本はすべてベクトル構造になっていたからであった。 だから、1と入力したつもり…
いままで知らなかったけど、命名規則ってのがあるみたいで。http://www.okada.jp.org/RWiki/?R%A4%CB%A4%AA%A4%B1%A4%EB%B3%CE%CE%A8%CA%AC%C9%DBそもそもRの基礎操作は http://takenaka-akio.org/doc/r_auto/chapter_05.html行列操作に関して参考になったの…
Stanford NERのコマンドの謎は解決したが、相変わらずPython interfaceは謎のままだった。そこで、Stanford NERを含むToolkitのStanford Core NLPを教えてもらった。 このPython interfaceならキチンと動く(らしい)http://nlp.stanford.edu/software/coren…
OpenNLPに実装されているNamed Entity では残念ながら欧米人の名前しか認識してくれない。 これでは困る。アジア人の名前のほとんどが認識できなければ、そんなの使い物にならない。というわけで、別の固有名詞を探してくれる何かがないかあと思って探してい…
毎週のようにやっているはずなのに、すぐに忘れる。 毎回調べるのも面倒きわまりないので、書き残しておくことにした。python installの時はこのコマンド$ python setup.py install --prefix=~/以上
レイリー商というのを初めて知った。いまいち使い方がわからなかったので、調べてみた。式が X^T*A*X (XとAはそれぞれ行列)の時、これの最大値、最小値は、Aの固有値に等しい。というものだった。つまり、X^T*A*X の最大値、最小値が知りたければ、Aの固有…
ここのサイトにお世話になる。基礎のことがしっかりと書かれていてものすごく助かる。http://www.kwansei.ac.jp/hs/z90010/sugakuc/toukei/seiki/seiki.htm#%90%B3%8BK%95%AA%95z
A Comparison of Features for Automatic Readability Assessment の追試で実験を進めていこうと思っているが、どうせノートに書いても忘れるので、代わりにここにでも書いておく。3.1 Discourse Featureの素性3.1.1 Entity-Density FeaturesはOpen NLPのNam…
http://dennoh-guerrilla.blogspot.jp/2012/01/python.htmlにまんま書いてあるが、対象ディレクトリで対話型画面を起動して>>> import スクリプト名を実行するだけでよかった。 変に.pyとか入れるんだっけとか?考えて余計な時間を食った。ちなみにやりたか…
PATHの設定とtarのコマンドをすぐに忘れてしまう。なので、メモする。PATHの設定 http://pocketstudio.jp/linux/?%A5%D1%A5%B9(PATH)%A4%CE%B3%CE%C7%A7%A4%C8%C0%DF%C4%EA%CA%FD%CB%A1%A4%CF%A1%A9tarコマンドについて http://www.h3.dion.ne.jp/~xosada/un…
今週のお題「文化祭や学園祭の思い出」ふと、思ったので書いてみると、文化祭や学園祭とかそういうものにいい思い出がない。 なぜだか、この時期になると死にゃあしないけど、それなりに苦しい病気にかかることが多かったからだ。 じゃあ、代わりに剣道でも…
Building Readability Lexicons with Unannotated Corpora Brooke, Julian et.al 2012 NACCL,Predicting and improving text readability for target reader populationsきょうのは単語の面からReadability評価に欠かせないlexiconを自動でつくっちゃう話。○…
ちょっとだけノンパラベイズをやってみることにした。 幸いにもウルトラわかりやすいスライドがあったので、知っておく程度にうってつけだった。 いつも通りGraham先生のスライドは直感的にわかりやすいようにできている。 http://www.phontron.com/slides/n…
Unsupervised Identification of Persian Compound Verbs Mohammad Sadegh Rasooli and Heshaam Faili and Behrouz Minaei-Bidgoli MICAI (1)'11○ざっくり概要「ペルシア語の複合動詞を検出しよう」というタスク 使った手法はBootstrapとK-menas法いろいろ試…
マジカル・ナンバーとは? 簡潔には、「人間が記憶しておくことができるメモリ量」と考えるとわかりやすい。元々の出典は The Magical Number Seven, Plus or Minus Two: Some Limits on Our Capacity for Processing Information (George Miller,1956)古っ…
Windowsだと簡単にできることもなぜかMacだと難しくなったてりしてることも(多い)UIを簡略化した結果なんだろうか。 で、プリンタの設定の話。プリンタのデフォルト設定はブラウザで localhost:631 に接続すれば、できる。ということを教えてもらった
サーバーでTheanoというライブラリを動かしたかったのだが、やっぱり普通にはインストールはうまくいかない(サーバーではrootユーザーではないので) そこで、prefixをつけてインストールを試みたが、うまくいかなかった。原因はPYTHONPATHが通っていないこ…
Automatic analysis of syntactic complexity in second language writing Xiaofei Lu International Journal of Corpus Linguistics, 15(4):474-496. 英語学習者の書いたエッセイを評価するシステムの設計について書かれた論文。 実際にシステムを作成して…
Pythonで多次元リストを作るときと言えば、 a = [[0 for i in range(3)] for i in range(3)] とリスト内包表記をすれば、 >>> a [[0, 0, 0], [0, 0, 0], [0, 0, 0]]参考 http://d.hatena.ne.jp/greennoah/20081202/1228233338 http://php6.jp/python/basics/…
ピアソン相関係数と言えば、その名の通り、相関関係を示す評価尺度ですが、p値という単語を目にしました。p値?それって、ph値と何か関係あったりする?(もちろん関係ないです) なので、調べてみたらこんな感じの説明でした。説明を見つけたのはここ↓ http…
Chen, Miao Zechner, Klaus The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies 2011 きょうのは構文の難しさの評価尺度を使って、speech(Non-native)にも応用をかけてみましょうよ。という話。writin…
This article is about how to use "Persian Pre-processor: PrePer"PrePer is text normalizer for Persian text. Outline of PrePer is in http://stp.lingfil.uu.se/~mojgan/preper.htmlBefore using PrePer, a little ( or more) preparation is needed.…
http://blog.layer8.sh/ja/2011/12/23/%E6%96%87%E5%AD%97%E3%82%B3%E3%83%BC%E3%83%89%E5%A4%89%E6%8F%9B%E3%82%B3%E3%83%9E%E3%83%B3%E3%83%89nkf%E3%81%AE%E4%BD%BF%E3%81%84%E6%96%B9%E3%81%BE%E3%81%A8%E3%82%81-linux/のあるように $ nkf -g 対象ファ…
webの文章データを扱いたいなと思って、色々と試してみたけど、うまくいかない。 Pythonコードを自分で書いてみて、たしかにうまくいったし、文章の獲得もできたが、例えばそのページがローカル内にたくさんのサブページを持っていた場合。いちいちルールを…
時々、いろんな文章を扱っていると文字コードの扱いに困る。 なので、どうしたらいいものか?と考えたら判定すればいいと思った。それで、調べてみたら見つかった。 http://speirs.blog17.fc2.com/blog-entry-4.htmlのように、片っ端から文字コードを試して…
After processing by PrePer, you can now segment and tokenize Persian document by using SeTPer.SeTPer uses Uplug framework. So,for using SeTPer, we have to know usage of Uplug. (I took a few hours to understand usage of Uplug)Uplug is tool …
A Basic Language Resource Kit for Persian Mojgan Seraji, Bea ́ta Megyesi, Joakim Nivre Uppsala University, Department of Linguistics and Philologyざっくりまとめると、いままで数も少なく、あったとしても有料なことが多い、そんなペルシア語のツ…
文字列→リストならsplit()を使えばごく簡単にできるけど、その逆の方法は知らなかった。なので、調べてみると http://taichino.com/programming/968 で見つかった。文字列変数 = "".join(リスト)でおk。ちなみに""のところにはリスト間を何でつなぐか?が入…
This is about Persian NLP resource.About Persian corpus, one of the well known corpus is "Bijankhan corpus."I found improved corpus of Bijankhan corpus, UPEC corpus.It's made by Mojgan Seraji, Phd students of Uppasala University, Sweden.ht…