tesseractに新しく学習させるには Persian編

データの提供元から、「フリーウェアで公開する前提でデータを使うなら、ライセンス料金が発生する。ダメだ」とメールが来ました。

当たり前と言えば当たり前です。

さて、どうしましょう?

考えられる選択肢は
・どっかの論文からOCRのアルゴリズムを拾ってきて実装する
・Tesseractに学習させる

ですが、現在、フリーウェアではTesseractの認識率が高い。という事実を考えれば、学習させた方が早そうです。

では、どうやって学習させるか?ですが。

アラビア語の学習データに上書き」でなんとかならないかなあ。と思ったり。


足りない音価の学習データだけ追加してやればOKじゃね?というのがいまの方針。

さて、学習させるときには、おそらく 結合した i とか A とか誤認識の嵐になるのが容易に予想できる・・・

では、くっついた状態で学習させてやればいいじゃん! というのが現状のアイディア。

つまり

ی
だけ独立で学習させるでなく
چی
は と結合した状態で学習させてやるわけだ。

作業は大変になると思うが、誤認識は防げるだろう・・