tesseractに新しく学習させるには Persian編
データの提供元から、「フリーウェアで公開する前提でデータを使うなら、ライセンス料金が発生する。ダメだ」とメールが来ました。
当たり前と言えば当たり前です。
さて、どうしましょう?
考えられる選択肢は
・どっかの論文からOCRのアルゴリズムを拾ってきて実装する
・Tesseractに学習させる
ですが、現在、フリーウェアではTesseractの認識率が高い。という事実を考えれば、学習させた方が早そうです。
では、どうやって学習させるか?ですが。
「アラビア語の学習データに上書き」でなんとかならないかなあ。と思ったり。
足りない音価の学習データだけ追加してやればOKじゃね?というのがいまの方針。
さて、学習させるときには、おそらく 結合した i とか A とか誤認識の嵐になるのが容易に予想できる・・・
では、くっついた状態で学習させてやればいいじゃん! というのが現状のアイディア。
つまり
ی
だけ独立で学習させるでなく
چی
は と結合した状態で学習させてやるわけだ。
作業は大変になると思うが、誤認識は防げるだろう・・