PYTHONPATHの設定とか

Python

サーバーでTheanoというライブラリを動かしたかったのだが、やっぱり普通にはインストールはうまくいかない（サーバーではrootユーザーではないので）そこで、prefixをつけてインストールを試みたが、うまくいかなかった。原因はPYTHONPATHが通っていないこ…

2012-09-20

Automatic analysis of syntactic complexity in second language writing

論文メモ

Automatic analysis of syntactic complexity in second language writing Xiaofei Lu International Journal of Corpus Linguistics, 15(4):474-496. 英語学習者の書いたエッセイを評価するシステムの設計について書かれた論文。実際にシステムを作成して…

2012-09-18

多次元リストの話

Python

Pythonで多次元リストを作るときと言えば、 a = [[0 for i in range(3)] for i in range(3)] とリスト内包表記をすれば、 >>> a [[0, 0, 0], [0, 0, 0], [0, 0, 0]]参考 http://d.hatena.ne.jp/greennoah/20081202/1228233338 http://php6.jp/python/basics/…

2012-09-10

ピアソン相関係数のp値

統計のこととか

ピアソン相関係数と言えば、その名の通り、相関関係を示す評価尺度ですが、p値という単語を目にしました。p値？それって、ph値と何か関係あったりする？（もちろん関係ないです）なので、調べてみたらこんな感じの説明でした。説明を見つけたのはここ↓ http…

2012-09-10

Computing and Evaluating Syntactic Complexity Features for Automated Scoring of Spontaneous Non-Native Speech

論文メモ

Chen, Miao Zechner, Klaus The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies 2011 きょうのは構文の難しさの評価尺度を使って、speech(Non-native)にも応用をかけてみましょうよ。という話。writin…

2012-09-07

How to use "Persian Pre-processor: PrePer" ?

Persian_NLP

This article is about how to use "Persian Pre-processor: PrePer"PrePer is text normalizer for Persian text. Outline of PrePer is in http://stp.lingfil.uu.se/~mojgan/preper.htmlBefore using PrePer, a little ( or more) preparation is needed.…

2012-09-07

Unixの文字コード変換コマンド

http://blog.layer8.sh/ja/2011/12/23/%E6%96%87%E5%AD%97%E3%82%B3%E3%83%BC%E3%83%89%E5%A4%89%E6%8F%9B%E3%82%B3%E3%83%9E%E3%83%B3%E3%83%89nkf%E3%81%AE%E4%BD%BF%E3%81%84%E6%96%B9%E3%81%BE%E3%81%A8%E3%82%81-linux/のあるように $ nkf -g 対象ファ…

2012-09-07

クローリング始めました

環境整備

webの文章データを扱いたいなと思って、色々と試してみたけど、うまくいかない。 Pythonコードを自分で書いてみて、たしかにうまくいったし、文章の獲得もできたが、例えばそのページがローカル内にたくさんのサブページを持っていた場合。いちいちルールを…

2012-09-07

文字コードを判別するには？

Python

時々、いろんな文章を扱っていると文字コードの扱いに困る。なので、どうしたらいいものか？と考えたら判定すればいいと思った。それで、調べてみたら見つかった。 http://speirs.blog17.fc2.com/blog-entry-4.htmlのように、片っ端から文字コードを試して…

2012-09-07

To use Persian segmenter and tokenizer:SeTPer

Persian_NLP

After processing by PrePer, you can now segment and tokenize Persian document by using SeTPer.SeTPer uses Uplug framework. So,for using SeTPer, we have to know usage of Uplug. (I took a few hours to understand usage of Uplug)Uplug is tool …

2012-09-06

A Basic Language Resource Kit for Persian

論文メモ Persian_NLP

A Basic Language Resource Kit for Persian Mojgan Seraji, Bea ́ta Megyesi, Joakim Nivre Uppsala University, Department of Linguistics and Philologyざっくりまとめると、いままで数も少なく、あったとしても有料なことが多い、そんなペルシア語のツ…

2012-09-06

リスト→文字列、文字列→リストの方法

Python

文字列→リストならsplit()を使えばごく簡単にできるけど、その逆の方法は知らなかった。なので、調べてみると http://taichino.com/programming/968 で見つかった。文字列変数 = "".join(リスト)でおk。ちなみに""のところにはリスト間を何でつなぐか？が入…

2012-09-05

Information about Persian NLP Resource

Persian_NLP

This is about Persian NLP resource.About Persian corpus, one of the well known corpus is "Bijankhan corpus."I found improved corpus of Bijankhan corpus, UPEC corpus.It's made by Mojgan Seraji, Phd students of Uppasala University, Sweden.ht…

2012-09-05

Amebaを閉めた

Amebaブログを閉めてはてなに移行することにしました。だって、Amebaの自由度って低いし.....それに（かなり主観だけど）なんかバカっぽいんですもの。引っ越しもかなり大変そうだったので、必要そうなエントリだけ、新しく手動で（つまりコピペで）移動なん…

2012-09-05

アラビア文字OCR Tesseract

ひとつ前の記事で「アラビア文字のOCRなどない」と断言してしまったが、あった。正確に言うと、「アラビア文字専用はなかった」が「多言語型のOCRがあった」だが。そんなのいい訳です。http://code.google.com/p/tesseract-ocr/さて、このTesseractがいった…

2012-09-05

tesseractに新しく学習させるには　Persian編

Persian_NLP

データの提供元から、「フリーウェアで公開する前提でデータを使うなら、ライセンス料金が発生する。ダメだ」とメールが来ました。当たり前と言えば当たり前です。さて、どうしましょう？考えられる選択肢は・どっかの論文からOCRのアルゴリズムを拾ってき…

2012-09-05

SafariでPDFを読む時にはAdobeじゃなくてPreviewにしたい。

環境整備

Adobe Readerも入れて使っているのですが、SafariまでPDFがadobeで表示されるのは嫌。というのも、Papiとかいう謎のプロセスが実行されるみたいで、しかもそれが実行中のアプリに表示されてしまうのだ。せっかくのMacの綺麗な動きが台無し。ということで、そ…

2012-09-05

Pythonで一気にループざまぁぁぁぁ！する方法

Python

例えば、すごい深いネストが作られてしまったとしよう。こういうとき、BasicやJavaやCにはウルトラ便利なGo to文でネストからの脱出が簡単にできる。けど・・・PythonにはGo to文が存在しないのだ・・・そこで、Pythonで一気にネストから抜ける方法http://ju…

2012-09-05

Unicode文字の正規化

その他もろもろ

研究室の同期に教えてもらったUnicodeの正規化の話。 http://homepage1.nifty.com/nomenclator/unicode/normalization.htmUnicodeが統一のために制定されたコードだと言っても、その内容は少しずつ違っていて、Cの下にちょろっとつくセディウムは、分解可能…

2012-09-05

開発環境をUbuntuに切り替えた

環境整備

Macを使っているときに、ライブラリのエラーとかパスの設定とかあまりに多すぎてややこしすぎた。おかげで、ライブラリを動かすのに時間の大半を占められるとか、わけのわからない状態に。無駄なので、いっそのことでUbuntuに切り替えた。その時のメモ兼覚…

2012-09-05

Sign language machine translation overkill

論文メモ

CICPの役に立ちそうな論文探しをしていたら、先生が紹介してくださった論文。どうやって自然入力文を手話の表記に翻訳するか？を機械翻訳の手法を用いてみた。という内容。対象はドイツ語→ドイツ手話。ドイツ手話にはお天気予報を元にデータを起こしたRWTH-…

2012-09-05

Correcting Comma Errors in Learner Essays, and..

論文メモ

Correcting Comma Errors in Learner Essays, and Restoring Commas in Newswire Textコンマについての熱い情熱が伝わる論文。コンマが抜けてる文にコンマを挿入したり、コンマを使いすぎてる文からコンマを削除する。というのがひとつ。二つ目は、コンマを…