2012-01-01から1年間の記事一覧

Amebaを閉めた

Amebaブログを閉めてはてなに移行することにしました。だって、Amebaの自由度って低いし.....それに(かなり主観だけど)なんかバカっぽいんですもの。引っ越しもかなり大変そうだったので、必要そうなエントリだけ、新しく手動で(つまりコピペで)移動なん…

アラビア文字OCR Tesseract

ひとつ前の記事で「アラビア文字のOCRなどない」と断言してしまったが、あった。正確に言うと、「アラビア文字専用はなかった」が「多言語型のOCRがあった」だが。そんなのいい訳です。http://code.google.com/p/tesseract-ocr/さて、このTesseractがいった…

tesseractに新しく学習させるには Persian編

データの提供元から、「フリーウェアで公開する前提でデータを使うなら、ライセンス料金が発生する。ダメだ」とメールが来ました。当たり前と言えば当たり前です。さて、どうしましょう?考えられる選択肢は ・どっかの論文からOCRのアルゴリズムを拾ってき…

SafariでPDFを読む時にはAdobeじゃなくてPreviewにしたい。

Adobe Readerも入れて使っているのですが、SafariまでPDFがadobeで表示されるのは嫌。というのも、Papiとかいう謎のプロセスが実行されるみたいで、しかもそれが実行中のアプリに表示されてしまうのだ。せっかくのMacの綺麗な動きが台無し。ということで、そ…

Pythonで一気にループざまぁぁぁぁ!する方法

例えば、すごい深いネストが作られてしまったとしよう。こういうとき、BasicやJavaやCにはウルトラ便利なGo to文でネストからの脱出が簡単にできる。けど・・・PythonにはGo to文が存在しないのだ・・・そこで、Pythonで一気にネストから抜ける方法http://ju…

Unicode文字の正規化

研究室の同期に教えてもらったUnicodeの正規化の話。 http://homepage1.nifty.com/nomenclator/unicode/normalization.htmUnicodeが統一のために制定されたコードだと言っても、その内容は少しずつ違っていて、Cの下にちょろっとつくセディウムは、分解可能…

開発環境をUbuntuに切り替えた

Macを使っているときに、ライブラリのエラーとかパスの設定とかあまりに多すぎてややこしすぎた。 おかげで、ライブラリを動かすのに時間の大半を占められるとか、わけのわからない状態に。 無駄なので、いっそのことでUbuntuに切り替えた。その時のメモ兼覚…

Sign language machine translation overkill

CICPの役に立ちそうな論文探しをしていたら、先生が紹介してくださった論文。どうやって自然入力文を手話の表記に翻訳するか?を機械翻訳の手法を用いてみた。という内容。 対象はドイツ語→ドイツ手話。ドイツ手話にはお天気予報を元にデータを起こしたRWTH-…

Correcting Comma Errors in Learner Essays, and..

Correcting Comma Errors in Learner Essays, and Restoring Commas in Newswire Textコンマについての熱い情熱が伝わる論文。コンマが抜けてる文にコンマを挿入したり、コンマを使いすぎてる文からコンマを削除する。というのがひとつ。二つ目は、コンマを…

階層ベイズってみた

研究室の先輩から階層ベイズがなかなかGJっていう話を聞いたので、ひとつ勉強してみることにした。しかし、最近のスライドの作り込みはすばらしいですな。 なんか、わかった気になれるwとりあえず、階層ベイズについて理解した概要は 「初期状態と終了状態だ…