2012-09-05から1日間の記事一覧
This is about Persian NLP resource.About Persian corpus, one of the well known corpus is "Bijankhan corpus."I found improved corpus of Bijankhan corpus, UPEC corpus.It's made by Mojgan Seraji, Phd students of Uppasala University, Sweden.ht…
Amebaブログを閉めてはてなに移行することにしました。だって、Amebaの自由度って低いし.....それに(かなり主観だけど)なんかバカっぽいんですもの。引っ越しもかなり大変そうだったので、必要そうなエントリだけ、新しく手動で(つまりコピペで)移動なん…
ひとつ前の記事で「アラビア文字のOCRなどない」と断言してしまったが、あった。正確に言うと、「アラビア文字専用はなかった」が「多言語型のOCRがあった」だが。そんなのいい訳です。http://code.google.com/p/tesseract-ocr/さて、このTesseractがいった…
データの提供元から、「フリーウェアで公開する前提でデータを使うなら、ライセンス料金が発生する。ダメだ」とメールが来ました。当たり前と言えば当たり前です。さて、どうしましょう?考えられる選択肢は ・どっかの論文からOCRのアルゴリズムを拾ってき…
Adobe Readerも入れて使っているのですが、SafariまでPDFがadobeで表示されるのは嫌。というのも、Papiとかいう謎のプロセスが実行されるみたいで、しかもそれが実行中のアプリに表示されてしまうのだ。せっかくのMacの綺麗な動きが台無し。ということで、そ…
例えば、すごい深いネストが作られてしまったとしよう。こういうとき、BasicやJavaやCにはウルトラ便利なGo to文でネストからの脱出が簡単にできる。けど・・・PythonにはGo to文が存在しないのだ・・・そこで、Pythonで一気にネストから抜ける方法http://ju…
研究室の同期に教えてもらったUnicodeの正規化の話。 http://homepage1.nifty.com/nomenclator/unicode/normalization.htmUnicodeが統一のために制定されたコードだと言っても、その内容は少しずつ違っていて、Cの下にちょろっとつくセディウムは、分解可能…
Macを使っているときに、ライブラリのエラーとかパスの設定とかあまりに多すぎてややこしすぎた。 おかげで、ライブラリを動かすのに時間の大半を占められるとか、わけのわからない状態に。 無駄なので、いっそのことでUbuntuに切り替えた。その時のメモ兼覚…
CICPの役に立ちそうな論文探しをしていたら、先生が紹介してくださった論文。どうやって自然入力文を手話の表記に翻訳するか?を機械翻訳の手法を用いてみた。という内容。 対象はドイツ語→ドイツ手話。ドイツ手話にはお天気予報を元にデータを起こしたRWTH-…
Correcting Comma Errors in Learner Essays, and Restoring Commas in Newswire Textコンマについての熱い情熱が伝わる論文。コンマが抜けてる文にコンマを挿入したり、コンマを使いすぎてる文からコンマを削除する。というのがひとつ。二つ目は、コンマを…
研究室の先輩から階層ベイズがなかなかGJっていう話を聞いたので、ひとつ勉強してみることにした。しかし、最近のスライドの作り込みはすばらしいですな。 なんか、わかった気になれるwとりあえず、階層ベイズについて理解した概要は 「初期状態と終了状態だ…