Information about Persian NLP Resource

Persian_NLP

This is about Persian NLP resource.About Persian corpus, one of the well known corpus is "Bijankhan corpus."I found improved corpus of Bijankhan corpus, UPEC corpus.It's made by Mojgan Seraji, Phd students of Uppasala University, Sweden.ht…

2012-09-05

Amebaを閉めた

Amebaブログを閉めてはてなに移行することにしました。だって、Amebaの自由度って低いし.....それに（かなり主観だけど）なんかバカっぽいんですもの。引っ越しもかなり大変そうだったので、必要そうなエントリだけ、新しく手動で（つまりコピペで）移動なん…

2012-09-05

アラビア文字OCR Tesseract

ひとつ前の記事で「アラビア文字のOCRなどない」と断言してしまったが、あった。正確に言うと、「アラビア文字専用はなかった」が「多言語型のOCRがあった」だが。そんなのいい訳です。http://code.google.com/p/tesseract-ocr/さて、このTesseractがいった…

2012-09-05

tesseractに新しく学習させるには　Persian編

Persian_NLP

データの提供元から、「フリーウェアで公開する前提でデータを使うなら、ライセンス料金が発生する。ダメだ」とメールが来ました。当たり前と言えば当たり前です。さて、どうしましょう？考えられる選択肢は・どっかの論文からOCRのアルゴリズムを拾ってき…

2012-09-05

SafariでPDFを読む時にはAdobeじゃなくてPreviewにしたい。

環境整備

Adobe Readerも入れて使っているのですが、SafariまでPDFがadobeで表示されるのは嫌。というのも、Papiとかいう謎のプロセスが実行されるみたいで、しかもそれが実行中のアプリに表示されてしまうのだ。せっかくのMacの綺麗な動きが台無し。ということで、そ…

2012-09-05

Pythonで一気にループざまぁぁぁぁ！する方法

Python

例えば、すごい深いネストが作られてしまったとしよう。こういうとき、BasicやJavaやCにはウルトラ便利なGo to文でネストからの脱出が簡単にできる。けど・・・PythonにはGo to文が存在しないのだ・・・そこで、Pythonで一気にネストから抜ける方法http://ju…

2012-09-05

Unicode文字の正規化

その他もろもろ

研究室の同期に教えてもらったUnicodeの正規化の話。 http://homepage1.nifty.com/nomenclator/unicode/normalization.htmUnicodeが統一のために制定されたコードだと言っても、その内容は少しずつ違っていて、Cの下にちょろっとつくセディウムは、分解可能…

2012-09-05

開発環境をUbuntuに切り替えた

環境整備

Macを使っているときに、ライブラリのエラーとかパスの設定とかあまりに多すぎてややこしすぎた。おかげで、ライブラリを動かすのに時間の大半を占められるとか、わけのわからない状態に。無駄なので、いっそのことでUbuntuに切り替えた。その時のメモ兼覚…

2012-09-05

Sign language machine translation overkill

論文メモ

CICPの役に立ちそうな論文探しをしていたら、先生が紹介してくださった論文。どうやって自然入力文を手話の表記に翻訳するか？を機械翻訳の手法を用いてみた。という内容。対象はドイツ語→ドイツ手話。ドイツ手話にはお天気予報を元にデータを起こしたRWTH-…

2012-09-05

Correcting Comma Errors in Learner Essays, and..

論文メモ

Correcting Comma Errors in Learner Essays, and Restoring Commas in Newswire Textコンマについての熱い情熱が伝わる論文。コンマが抜けてる文にコンマを挿入したり、コンマを使いすぎてる文からコンマを削除する。というのがひとつ。二つ目は、コンマを…