ポアソン分布についての個人的なまとめ

統計のこととか

直感的にわかりやすかったのが、 http://oku.edu.mie-u.ac.jp/~okumura/stat/poisson.php ただ、「もう少し説明が欲しいな」という時に、 http://www.f-denshi.com/000TokiwaJPN/17kakto/100prob.html※特にこのサイトでは、「ジローくんがコップを割る確率」…

2012-11-11

Rのデータ構造ってすごく多かった

R

何にもわかってないままに始めたので最初のうちはよかったんだけど、後半になるにつれて「ん、何かおかしいぞ？」ということがたびたび出て来た。というのも、Rのデータ構造の基本はすべてベクトル構造になっていたからであった。だから、1と入力したつもり…

2012-11-11

Rの分布関数命名規則

R

いままで知らなかったけど、命名規則ってのがあるみたいで。http://www.okada.jp.org/RWiki/?R%A4%CB%A4%AA%A4%B1%A4%EB%B3%CE%CE%A8%CA%AC%C9%DBそもそもRの基礎操作は http://takenaka-akio.org/doc/r_auto/chapter_05.html行列操作に関して参考になったの…

2012-11-10

Stanford NERからStanford CoreNLPへ

Stanford NERのコマンドの謎は解決したが、相変わらずPython interfaceは謎のままだった。そこで、Stanford NERを含むToolkitのStanford Core NLPを教えてもらった。このPython interfaceならキチンと動く（らしい）http://nlp.stanford.edu/software/coren…

2012-11-08

OpenNLPのNamed Entity ではできないこと

OpenNLPに実装されているNamed Entity では残念ながら欧米人の名前しか認識してくれない。これでは困る。アジア人の名前のほとんどが認識できなければ、そんなの使い物にならない。というわけで、別の固有名詞を探してくれる何かがないかあと思って探してい…

2012-11-08

すぐ忘れる脳のためのメモ_管理者権限なしの時にpython install

Python

毎週のようにやっているはずなのに、すぐに忘れる。毎回調べるのも面倒きわまりないので、書き残しておくことにした。python installの時はこのコマンド$ python setup.py install --prefix=~/以上

2012-11-08

レイリー商について調べてみた

その他もろもろ

レイリー商というのを初めて知った。いまいち使い方がわからなかったので、調べてみた。式が X^T*A*X （XとAはそれぞれ行列）の時、これの最大値、最小値は、Aの固有値に等しい。というものだった。つまり、X^T*A*X の最大値、最小値が知りたければ、Aの固有…

2012-11-08

正規分布の基礎を忘れたときには

統計のこととか

ここのサイトにお世話になる。基礎のことがしっかりと書かれていてものすごく助かる。http://www.kwansei.ac.jp/hs/z90010/sugakuc/toukei/seiki/seiki.htm#%90%B3%8BK%95%AA%95z

2012-11-07

A Comparison of Features for Automatic Readability Assessmentの追試でやるべきこと

A Comparison of Features for Automatic Readability Assessment の追試で実験を進めていこうと思っているが、どうせノートに書いても忘れるので、代わりにここにでも書いておく。3.1 Discourse Featureの素性3.1.1 Entity-Density FeaturesはOpen NLPのNam…

2012-11-07

すぐ忘れる脳のためのメモ_対話型画面でのスクリプトのimport方法

Python

http://dennoh-guerrilla.blogspot.jp/2012/01/python.htmlにまんま書いてあるが、対象ディレクトリで対話型画面を起動して>>> import スクリプト名を実行するだけでよかった。変に.pyとか入れるんだっけとか？考えて余計な時間を食った。ちなみにやりたか…

2012-10-15

すぐ忘れる脳のためのメモ

環境整備

PATHの設定とtarのコマンドをすぐに忘れてしまう。なので、メモする。PATHの設定 http://pocketstudio.jp/linux/?%A5%D1%A5%B9(PATH)%A4%CE%B3%CE%C7%A7%A4%C8%C0%DF%C4%EA%CA%FD%CB%A1%A4%CF%A1%A9tarコマンドについて http://www.h3.dion.ne.jp/~xosada/un…

2012-10-13

A Comparison of Features for Automatic Readability Assessment

論文メモ

今週のお題「文化祭や学園祭の思い出」ふと、思ったので書いてみると、文化祭や学園祭とかそういうものにいい思い出がない。なぜだか、この時期になると死にゃあしないけど、それなりに苦しい病気にかかることが多かったからだ。じゃあ、代わりに剣道でも…

2012-10-09

Building Readability Lexicons with Unannotated Corpora

論文メモ

Building Readability Lexicons with Unannotated Corpora Brooke, Julian et.al 2012 NACCL,Predicting and improving text readability for target reader populationsきょうのは単語の面からReadability評価に欠かせないlexiconを自動でつくっちゃう話。○…

2012-10-05

ノンパラベイズをちょっぴりさわってみた

機械学習など

ちょっとだけノンパラベイズをやってみることにした。幸いにもウルトラわかりやすいスライドがあったので、知っておく程度にうってつけだった。いつも通りGraham先生のスライドは直感的にわかりやすいようにできている。 http://www.phontron.com/slides/n…

2012-10-05

Unsupervised Identification of Persian Compound Verbs

論文メモ Persian_NLP

Unsupervised Identification of Persian Compound Verbs Mohammad Sadegh Rasooli and Heshaam Faili and Behrouz Minaei-Bidgoli MICAI (1)'11○ざっくり概要「ペルシア語の複合動詞を検出しよう」というタスク使った手法はBootstrapとK-menas法いろいろ試…

2012-10-04

マジック・ナンバー（正しくはマジカル・ナンバーだけど）

その他もろもろ

マジカル・ナンバーとは？簡潔には、「人間が記憶しておくことができるメモリ量」と考えるとわかりやすい。元々の出典は The Magical Number Seven, Plus or Minus Two: Some Limits on Our Capacity for Processing Information (George Miller,1956)古っ…

2012-10-04

Macでのプリンタの基本的な設定など

その他もろもろ

Windowsだと簡単にできることもなぜかMacだと難しくなったてりしてることも（多い）UIを簡略化した結果なんだろうか。で、プリンタの設定の話。プリンタのデフォルト設定はブラウザで localhost:631 に接続すれば、できる。ということを教えてもらった

2012-09-29

PYTHONPATHの設定とか

Python

サーバーでTheanoというライブラリを動かしたかったのだが、やっぱり普通にはインストールはうまくいかない（サーバーではrootユーザーではないので）そこで、prefixをつけてインストールを試みたが、うまくいかなかった。原因はPYTHONPATHが通っていないこ…

2012-09-20

Automatic analysis of syntactic complexity in second language writing

論文メモ

Automatic analysis of syntactic complexity in second language writing Xiaofei Lu International Journal of Corpus Linguistics, 15(4):474-496. 英語学習者の書いたエッセイを評価するシステムの設計について書かれた論文。実際にシステムを作成して…

2012-09-18

多次元リストの話

Python

Pythonで多次元リストを作るときと言えば、 a = [[0 for i in range(3)] for i in range(3)] とリスト内包表記をすれば、 >>> a [[0, 0, 0], [0, 0, 0], [0, 0, 0]]参考 http://d.hatena.ne.jp/greennoah/20081202/1228233338 http://php6.jp/python/basics/…

2012-09-10

ピアソン相関係数のp値

統計のこととか

ピアソン相関係数と言えば、その名の通り、相関関係を示す評価尺度ですが、p値という単語を目にしました。p値？それって、ph値と何か関係あったりする？（もちろん関係ないです）なので、調べてみたらこんな感じの説明でした。説明を見つけたのはここ↓ http…

2012-09-10

Computing and Evaluating Syntactic Complexity Features for Automated Scoring of Spontaneous Non-Native Speech

論文メモ

Chen, Miao Zechner, Klaus The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies 2011 きょうのは構文の難しさの評価尺度を使って、speech(Non-native)にも応用をかけてみましょうよ。という話。writin…

2012-09-07

How to use "Persian Pre-processor: PrePer" ?

Persian_NLP

This article is about how to use "Persian Pre-processor: PrePer"PrePer is text normalizer for Persian text. Outline of PrePer is in http://stp.lingfil.uu.se/~mojgan/preper.htmlBefore using PrePer, a little ( or more) preparation is needed.…

2012-09-07

Unixの文字コード変換コマンド

http://blog.layer8.sh/ja/2011/12/23/%E6%96%87%E5%AD%97%E3%82%B3%E3%83%BC%E3%83%89%E5%A4%89%E6%8F%9B%E3%82%B3%E3%83%9E%E3%83%B3%E3%83%89nkf%E3%81%AE%E4%BD%BF%E3%81%84%E6%96%B9%E3%81%BE%E3%81%A8%E3%82%81-linux/のあるように $ nkf -g 対象ファ…

2012-09-07

クローリング始めました

環境整備

webの文章データを扱いたいなと思って、色々と試してみたけど、うまくいかない。 Pythonコードを自分で書いてみて、たしかにうまくいったし、文章の獲得もできたが、例えばそのページがローカル内にたくさんのサブページを持っていた場合。いちいちルールを…

2012-09-07

文字コードを判別するには？

Python

時々、いろんな文章を扱っていると文字コードの扱いに困る。なので、どうしたらいいものか？と考えたら判定すればいいと思った。それで、調べてみたら見つかった。 http://speirs.blog17.fc2.com/blog-entry-4.htmlのように、片っ端から文字コードを試して…

2012-09-07

To use Persian segmenter and tokenizer:SeTPer

Persian_NLP

After processing by PrePer, you can now segment and tokenize Persian document by using SeTPer.SeTPer uses Uplug framework. So,for using SeTPer, we have to know usage of Uplug. (I took a few hours to understand usage of Uplug)Uplug is tool …

2012-09-06

A Basic Language Resource Kit for Persian

論文メモ Persian_NLP

A Basic Language Resource Kit for Persian Mojgan Seraji, Bea ́ta Megyesi, Joakim Nivre Uppsala University, Department of Linguistics and Philologyざっくりまとめると、いままで数も少なく、あったとしても有料なことが多い、そんなペルシア語のツ…

2012-09-06

リスト→文字列、文字列→リストの方法

Python

文字列→リストならsplit()を使えばごく簡単にできるけど、その逆の方法は知らなかった。なので、調べてみると http://taichino.com/programming/968 で見つかった。文字列変数 = "".join(リスト)でおk。ちなみに""のところにはリスト間を何でつなぐか？が入…

2012-09-05

Information about Persian NLP Resource

Persian_NLP

This is about Persian NLP resource.About Persian corpus, one of the well known corpus is "Bijankhan corpus."I found improved corpus of Bijankhan corpus, UPEC corpus.It's made by Mojgan Seraji, Phd students of Uppasala University, Sweden.ht…

kensuke-miの日記

2012-01-01から1年間の記事一覧

ポアソン分布についての個人的なまとめ

Rのデータ構造ってすごく多かった

Rの分布関数命名規則

Stanford NERからStanford CoreNLPへ

OpenNLPのNamed Entity ではできないこと

すぐ忘れる脳のためのメモ_管理者権限なしの時にpython install

レイリー商について調べてみた

正規分布の基礎を忘れたときには

A Comparison of Features for Automatic Readability Assessmentの追試でやるべきこと

すぐ忘れる脳のためのメモ_対話型画面でのスクリプトのimport方法

すぐ忘れる脳のためのメモ

A Comparison of Features for Automatic Readability Assessment

Building Readability Lexicons with Unannotated Corpora

ノンパラベイズをちょっぴりさわってみた

Unsupervised Identification of Persian Compound Verbs

マジック・ナンバー（正しくはマジカル・ナンバーだけど）

Macでのプリンタの基本的な設定など

PYTHONPATHの設定とか

Automatic analysis of syntactic complexity in second language writing

多次元リストの話

ピアソン相関係数のp値

Computing and Evaluating Syntactic Complexity Features for Automated Scoring of Spontaneous Non-Native Speech

How to use "Persian Pre-processor: PrePer" ?

Unixの文字コード変換コマンド

クローリング始めました

文字コードを判別するには？

To use Persian segmenter and tokenizer:SeTPer

A Basic Language Resource Kit for Persian

リスト→文字列、文字列→リストの方法

Information about Persian NLP Resource