2012-01-01から1年間の記事一覧
Amebaブログを閉めてはてなに移行することにしました。だって、Amebaの自由度って低いし.....それに(かなり主観だけど)なんかバカっぽいんですもの。引っ越しもかなり大変そうだったので、必要そうなエントリだけ、新しく手動で(つまりコピペで)移動なん…
ひとつ前の記事で「アラビア文字のOCRなどない」と断言してしまったが、あった。正確に言うと、「アラビア文字専用はなかった」が「多言語型のOCRがあった」だが。そんなのいい訳です。http://code.google.com/p/tesseract-ocr/さて、このTesseractがいった…
データの提供元から、「フリーウェアで公開する前提でデータを使うなら、ライセンス料金が発生する。ダメだ」とメールが来ました。当たり前と言えば当たり前です。さて、どうしましょう?考えられる選択肢は ・どっかの論文からOCRのアルゴリズムを拾ってき…
Adobe Readerも入れて使っているのですが、SafariまでPDFがadobeで表示されるのは嫌。というのも、Papiとかいう謎のプロセスが実行されるみたいで、しかもそれが実行中のアプリに表示されてしまうのだ。せっかくのMacの綺麗な動きが台無し。ということで、そ…
例えば、すごい深いネストが作られてしまったとしよう。こういうとき、BasicやJavaやCにはウルトラ便利なGo to文でネストからの脱出が簡単にできる。けど・・・PythonにはGo to文が存在しないのだ・・・そこで、Pythonで一気にネストから抜ける方法http://ju…
研究室の同期に教えてもらったUnicodeの正規化の話。 http://homepage1.nifty.com/nomenclator/unicode/normalization.htmUnicodeが統一のために制定されたコードだと言っても、その内容は少しずつ違っていて、Cの下にちょろっとつくセディウムは、分解可能…
Macを使っているときに、ライブラリのエラーとかパスの設定とかあまりに多すぎてややこしすぎた。 おかげで、ライブラリを動かすのに時間の大半を占められるとか、わけのわからない状態に。 無駄なので、いっそのことでUbuntuに切り替えた。その時のメモ兼覚…
CICPの役に立ちそうな論文探しをしていたら、先生が紹介してくださった論文。どうやって自然入力文を手話の表記に翻訳するか?を機械翻訳の手法を用いてみた。という内容。 対象はドイツ語→ドイツ手話。ドイツ手話にはお天気予報を元にデータを起こしたRWTH-…
Correcting Comma Errors in Learner Essays, and Restoring Commas in Newswire Textコンマについての熱い情熱が伝わる論文。コンマが抜けてる文にコンマを挿入したり、コンマを使いすぎてる文からコンマを削除する。というのがひとつ。二つ目は、コンマを…
研究室の先輩から階層ベイズがなかなかGJっていう話を聞いたので、ひとつ勉強してみることにした。しかし、最近のスライドの作り込みはすばらしいですな。 なんか、わかった気になれるwとりあえず、階層ベイズについて理解した概要は 「初期状態と終了状態だ…