Unicode文字の正規化

研究室の同期に教えてもらったUnicodeの正規化の話。
http://homepage1.nifty.com/nomenclator/unicode/normalization.htm

Unicodeが統一のために制定されたコードだと言っても、その内容は少しずつ違っていて、Cの下にちょろっとつくセディウムは、分解可能だったり、はじめからセディウムと合体した形で制定されていたり。

そういうものをぜんぶ統一してやろうというお話。

そういえば、アラビア文字には表音記号がそれなりにあるが、表音記号がくっついた形のUnicodeは存在していないので、分離にはあまり関係ないように思う。

ただ、若干関係する話といえば、ペルシア語とアラビア語で違うコードを使う文字が存在することだろうか。

たしか経験ではkehとyeが見た目が同じなのに、違うコードだった気がする。

で、一般的には(新聞社のサイトでは)アラビア文字のコードを使っていた気がする。

つまり、ここではペルシア語の kehとyeはアラビア語文字コードに統一(正規化)するのが正しい。ということになるのだろう。

ということを思い出した。