アラビア文字OCR Tesseract

ひとつ前の記事で「アラビア文字OCRなどない」と断言してしまったが、あった。

正確に言うと、「アラビア文字専用はなかった」が「多言語型のOCRがあった」だが。

そんなのいい訳です。

http://code.google.com/p/tesseract-ocr/

さて、このTesseractがいったい何なのか?というと、「学習型のOCR」ということになるのかな。

学習型というのは、データでたくさん学習させて、欲しい結果を出力できるようにすること。

こういうのは広い括りで「機械学習」という。

さらに、データがたくさんある場合は「教師あり学習」という。

という、理論はもう置いておくとして。

実際のところ、アラビア語がどれだけ認識できたのかは・・・不明です。

だって、読めないんだもの。

ただ、気をつけなきゃいけないのは、画像、図が読み込ませる範囲にあってはいけない。

画像と図があると何か謎の文字と認識されてしまうからだ。

ちなみに、ペルシア語を読ませると、アラビア語に存在しない音価を除いて、かなり正確に認識しているように思う。

でも、間違いは間違いなのだから、現状では使えない。

では、ペルシア語の文字辞書を作ってやればよい。

ちょうど都合の良いことに
http://farsiocr.ir/

に元データがあった。

あとはTesseractに学習させるだけ。


近いうちに作業にかかろうと思う。