tesseractに新しく学習させるには　Persian編

データの提供元から、「フリーウェアで公開する前提でデータを使うなら、ライセンス料金が発生する。ダメだ」とメールが来ました。

当たり前と言えば当たり前です。

さて、どうしましょう？

考えられる選択肢は
・どっかの論文からOCRのアルゴリズムを拾ってきて実装する
・Tesseractに学習させる

ですが、現在、フリーウェアではTesseractの認識率が高い。という事実を考えれば、学習させた方が早そうです。

では、どうやって学習させるか？ですが。

「アラビア語の学習データに上書き」でなんとかならないかなあ。と思ったり。

足りない音価の学習データだけ追加してやればOKじゃね？というのがいまの方針。

さて、学習させるときには、おそらく　結合した i とか A とか誤認識の嵐になるのが容易に予想できる・・・

では、くっついた状態で学習させてやればいいじゃん！　というのが現状のアイディア。

つまり

ی
だけ独立で学習させるでなく
چی
はと結合した状態で学習させてやるわけだ。

作業は大変になると思うが、誤認識は防げるだろう・・