アラビア文字OCR Tesseract
ひとつ前の記事で「アラビア文字のOCRなどない」と断言してしまったが、あった。
正確に言うと、「アラビア文字専用はなかった」が「多言語型のOCRがあった」だが。
そんなのいい訳です。
http://code.google.com/p/tesseract-ocr/
さて、このTesseractがいったい何なのか?というと、「学習型のOCR」ということになるのかな。
学習型というのは、データでたくさん学習させて、欲しい結果を出力できるようにすること。
こういうのは広い括りで「機械学習」という。
さらに、データがたくさんある場合は「教師あり学習」という。
という、理論はもう置いておくとして。
実際のところ、アラビア語がどれだけ認識できたのかは・・・不明です。
だって、読めないんだもの。
ただ、気をつけなきゃいけないのは、画像、図が読み込ませる範囲にあってはいけない。
画像と図があると何か謎の文字と認識されてしまうからだ。
ちなみに、ペルシア語を読ませると、アラビア語に存在しない音価を除いて、かなり正確に認識しているように思う。
でも、間違いは間違いなのだから、現状では使えない。
では、ペルシア語の文字辞書を作ってやればよい。
ちょうど都合の良いことに
http://farsiocr.ir/
に元データがあった。
あとはTesseractに学習させるだけ。
近いうちに作業にかかろうと思う。