2012-01-01から1年間の記事一覧

ポアソン分布についての個人的なまとめ

直感的にわかりやすかったのが、 http://oku.edu.mie-u.ac.jp/~okumura/stat/poisson.php ただ、「もう少し説明が欲しいな」という時に、 http://www.f-denshi.com/000TokiwaJPN/17kakto/100prob.html※特にこのサイトでは、「ジローくんがコップを割る確率」…

Rのデータ構造ってすごく多かった

R

何にもわかってないままに始めたので最初のうちはよかったんだけど、後半になるにつれて「ん、何かおかしいぞ?」ということがたびたび出て来た。というのも、Rのデータ構造の基本はすべてベクトル構造になっていたからであった。 だから、1と入力したつもり…

Rの分布関数命名規則

R

いままで知らなかったけど、命名規則ってのがあるみたいで。http://www.okada.jp.org/RWiki/?R%A4%CB%A4%AA%A4%B1%A4%EB%B3%CE%CE%A8%CA%AC%C9%DBそもそもRの基礎操作は http://takenaka-akio.org/doc/r_auto/chapter_05.html行列操作に関して参考になったの…

Stanford NERからStanford CoreNLPへ

Stanford NERのコマンドの謎は解決したが、相変わらずPython interfaceは謎のままだった。そこで、Stanford NERを含むToolkitのStanford Core NLPを教えてもらった。 このPython interfaceならキチンと動く(らしい)http://nlp.stanford.edu/software/coren…

OpenNLPのNamed Entity ではできないこと

OpenNLPに実装されているNamed Entity では残念ながら欧米人の名前しか認識してくれない。 これでは困る。アジア人の名前のほとんどが認識できなければ、そんなの使い物にならない。というわけで、別の固有名詞を探してくれる何かがないかあと思って探してい…

すぐ忘れる脳のためのメモ_管理者権限なしの時にpython install

毎週のようにやっているはずなのに、すぐに忘れる。 毎回調べるのも面倒きわまりないので、書き残しておくことにした。python installの時はこのコマンド$ python setup.py install --prefix=~/以上

レイリー商について調べてみた

レイリー商というのを初めて知った。いまいち使い方がわからなかったので、調べてみた。式が X^T*A*X (XとAはそれぞれ行列)の時、これの最大値、最小値は、Aの固有値に等しい。というものだった。つまり、X^T*A*X の最大値、最小値が知りたければ、Aの固有…

正規分布の基礎を忘れたときには

ここのサイトにお世話になる。基礎のことがしっかりと書かれていてものすごく助かる。http://www.kwansei.ac.jp/hs/z90010/sugakuc/toukei/seiki/seiki.htm#%90%B3%8BK%95%AA%95z

A Comparison of Features for Automatic Readability Assessmentの追試でやるべきこと

A Comparison of Features for Automatic Readability Assessment の追試で実験を進めていこうと思っているが、どうせノートに書いても忘れるので、代わりにここにでも書いておく。3.1 Discourse Featureの素性3.1.1 Entity-Density FeaturesはOpen NLPのNam…

すぐ忘れる脳のためのメモ_対話型画面でのスクリプトのimport方法

http://dennoh-guerrilla.blogspot.jp/2012/01/python.htmlにまんま書いてあるが、対象ディレクトリで対話型画面を起動して>>> import スクリプト名を実行するだけでよかった。 変に.pyとか入れるんだっけとか?考えて余計な時間を食った。ちなみにやりたか…

すぐ忘れる脳のためのメモ

PATHの設定とtarのコマンドをすぐに忘れてしまう。なので、メモする。PATHの設定 http://pocketstudio.jp/linux/?%A5%D1%A5%B9(PATH)%A4%CE%B3%CE%C7%A7%A4%C8%C0%DF%C4%EA%CA%FD%CB%A1%A4%CF%A1%A9tarコマンドについて http://www.h3.dion.ne.jp/~xosada/un…

A Comparison of Features for Automatic Readability Assessment

今週のお題「文化祭や学園祭の思い出」ふと、思ったので書いてみると、文化祭や学園祭とかそういうものにいい思い出がない。 なぜだか、この時期になると死にゃあしないけど、それなりに苦しい病気にかかることが多かったからだ。 じゃあ、代わりに剣道でも…

Building Readability Lexicons with Unannotated Corpora

Building Readability Lexicons with Unannotated Corpora Brooke, Julian et.al 2012 NACCL,Predicting and improving text readability for target reader populationsきょうのは単語の面からReadability評価に欠かせないlexiconを自動でつくっちゃう話。○…

ノンパラベイズをちょっぴりさわってみた

ちょっとだけノンパラベイズをやってみることにした。 幸いにもウルトラわかりやすいスライドがあったので、知っておく程度にうってつけだった。 いつも通りGraham先生のスライドは直感的にわかりやすいようにできている。 http://www.phontron.com/slides/n…

Unsupervised Identification of Persian Compound Verbs

Unsupervised Identification of Persian Compound Verbs Mohammad Sadegh Rasooli and Heshaam Faili and Behrouz Minaei-Bidgoli MICAI (1)'11○ざっくり概要「ペルシア語の複合動詞を検出しよう」というタスク 使った手法はBootstrapとK-menas法いろいろ試…

マジック・ナンバー(正しくはマジカル・ナンバーだけど)

マジカル・ナンバーとは? 簡潔には、「人間が記憶しておくことができるメモリ量」と考えるとわかりやすい。元々の出典は The Magical Number Seven, Plus or Minus Two: Some Limits on Our Capacity for Processing Information (George Miller,1956)古っ…

Macでのプリンタの基本的な設定など

Windowsだと簡単にできることもなぜかMacだと難しくなったてりしてることも(多い)UIを簡略化した結果なんだろうか。 で、プリンタの設定の話。プリンタのデフォルト設定はブラウザで localhost:631 に接続すれば、できる。ということを教えてもらった

PYTHONPATHの設定とか

サーバーでTheanoというライブラリを動かしたかったのだが、やっぱり普通にはインストールはうまくいかない(サーバーではrootユーザーではないので) そこで、prefixをつけてインストールを試みたが、うまくいかなかった。原因はPYTHONPATHが通っていないこ…

Automatic analysis of syntactic complexity in second language writing

Automatic analysis of syntactic complexity in second language writing Xiaofei Lu International Journal of Corpus Linguistics, 15(4):474-496. 英語学習者の書いたエッセイを評価するシステムの設計について書かれた論文。 実際にシステムを作成して…

多次元リストの話

Pythonで多次元リストを作るときと言えば、 a = [[0 for i in range(3)] for i in range(3)] とリスト内包表記をすれば、 >>> a [[0, 0, 0], [0, 0, 0], [0, 0, 0]]参考 http://d.hatena.ne.jp/greennoah/20081202/1228233338 http://php6.jp/python/basics/…

ピアソン相関係数のp値

ピアソン相関係数と言えば、その名の通り、相関関係を示す評価尺度ですが、p値という単語を目にしました。p値?それって、ph値と何か関係あったりする?(もちろん関係ないです) なので、調べてみたらこんな感じの説明でした。説明を見つけたのはここ↓ http…

Computing and Evaluating Syntactic Complexity Features for Automated Scoring of Spontaneous Non-Native Speech

Chen, Miao Zechner, Klaus The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies 2011 きょうのは構文の難しさの評価尺度を使って、speech(Non-native)にも応用をかけてみましょうよ。という話。writin…

How to use "Persian Pre-processor: PrePer" ?

This article is about how to use "Persian Pre-processor: PrePer"PrePer is text normalizer for Persian text. Outline of PrePer is in http://stp.lingfil.uu.se/~mojgan/preper.htmlBefore using PrePer, a little ( or more) preparation is needed.…

Unixの文字コード変換コマンド

http://blog.layer8.sh/ja/2011/12/23/%E6%96%87%E5%AD%97%E3%82%B3%E3%83%BC%E3%83%89%E5%A4%89%E6%8F%9B%E3%82%B3%E3%83%9E%E3%83%B3%E3%83%89nkf%E3%81%AE%E4%BD%BF%E3%81%84%E6%96%B9%E3%81%BE%E3%81%A8%E3%82%81-linux/のあるように $ nkf -g 対象ファ…

クローリング始めました

webの文章データを扱いたいなと思って、色々と試してみたけど、うまくいかない。 Pythonコードを自分で書いてみて、たしかにうまくいったし、文章の獲得もできたが、例えばそのページがローカル内にたくさんのサブページを持っていた場合。いちいちルールを…

文字コードを判別するには?

時々、いろんな文章を扱っていると文字コードの扱いに困る。 なので、どうしたらいいものか?と考えたら判定すればいいと思った。それで、調べてみたら見つかった。 http://speirs.blog17.fc2.com/blog-entry-4.htmlのように、片っ端から文字コードを試して…

To use Persian segmenter and tokenizer:SeTPer

After processing by PrePer, you can now segment and tokenize Persian document by using SeTPer.SeTPer uses Uplug framework. So,for using SeTPer, we have to know usage of Uplug. (I took a few hours to understand usage of Uplug)Uplug is tool …

A Basic Language Resource Kit for Persian

A Basic Language Resource Kit for Persian Mojgan Seraji, Bea ́ta Megyesi, Joakim Nivre Uppsala University, Department of Linguistics and Philologyざっくりまとめると、いままで数も少なく、あったとしても有料なことが多い、そんなペルシア語のツ…

リスト→文字列、文字列→リストの方法

文字列→リストならsplit()を使えばごく簡単にできるけど、その逆の方法は知らなかった。なので、調べてみると http://taichino.com/programming/968 で見つかった。文字列変数 = "".join(リスト)でおk。ちなみに""のところにはリスト間を何でつなぐか?が入…

Information about Persian NLP Resource

This is about Persian NLP resource.About Persian corpus, one of the well known corpus is "Bijankhan corpus."I found improved corpus of Bijankhan corpus, UPEC corpus.It's made by Mojgan Seraji, Phd students of Uppasala University, Sweden.ht…