ペルシア語の文字入力

誰得な内容ですが..ペルシア語を正しくコンピューターで扱う話.

これがきちっと守れないと,「検索した単語が出てこない!」とか「レポート書いたけど,間違いだらけじゃないか!」という原因になるので,きちっと守りましょう.というお話です.

実はアラビア語入力システムとペルシア語入力システムは細部が異なります.ネイティブの方も混合させていることが多いですが,せっかくルールが制定されているので.この機会に知って正しい入力できるようにしましょう.じゃないと困ることになりますよ(ぼくみたいなへっぽこエンジニアが).

1 まずしっかりペルシア語入力モードを設定しましょう
windows, Mac OS*, Linuxすべてにおいてアラビア語入力システムとペルシア語入力システムは別に用意されています.「形が似てるからいいじゃん」なんてのはダメです!形は似ていても別の文字.日本語の「黒」と簡体字の「鄢」は似ているけど違う文字でしょう?それと同じことです.

Mac OSには紛らわしいことに複数のペルシア語モードがあるけど,Persian-ISIRI 2901が本物です.あとはニセモノ.使ったらダメ,絶対!


2 接頭辞miと接尾辞hA, tar, trin etc.はZWNJつなぎで
「動詞のmiと打った後に,そのまま打つと文字がつながるからスペースを入れてっと..」というのはダメです!ペルシア語文字には,形はつながらないんだけど,スペースでもない.というZero Width Non Joiner(ZWNJ)が用意されています.スペースで文字を切ると,別の単語になってしまいます.miとkardが別の単語なんておかしいでしょう?だから,ZWNJでつなぎましょう.キーボードのレイアウト表はKeyboard layoutで紹介されているけど,ぼくの環境でも相当違っていたし...ちゃんとスクリーンキーボードで確認した方がいいかも.

3 黙音のHEHとEzafeの連結にアラビア語を使わないで(涙)
HEHで終わる単語の後にEzafeつなぎの語が来たら,ハムゼ書きますよね.アラビア語文字セットにはHEHとハムゼが一つになった便利なキーが存在してます.でも,これはペルシア語では無効です.だれが決めたって?そんなのどっかのエラい人が決めたにきまってるじゃないですか(unicode documentation
ペルシア語ではHEH+ハムゼ,またはHEH+ZWNJ+YEとルールが決まっています.個人的にはハムゼはどのみち見にくいので,HEH+ZWNJ+YEの方がオススメです.(見たところ.HEH+ZWNJ+YEを使ってるユーザーの方が多い)


でも,実際のところ,このルールがきちっとできていないネイティブユーザーも多くて...なので,正直なことを言うと,ペルシア語の文字入力体系はめちゃくちゃもいいところ.ある人はアラビア語モードで書くし,かと思えばローマ字転記で書いちゃう人も大勢いるし...

これに対処するのが「正規化」という方法.つまり,いろんな書き方をまとめて統一してしまうおう!っていう考え方.
残念ながら未だに「これなら完璧!」っていう物はなくて,日々いろんな人が開発してる(ホントか?)んだけど,代表的なところだと
Persian Text Normalizer
aziz/virastar · GitHub

※実はpreperというのは中でvirastarを流用してる