Unicode文字の正規化 - kensuke-miの日記

Unicodeが統一のために制定されたコードだと言っても、その内容は少しずつ違っていて、Cの下にちょろっとつくセディウムは、分解可能だったり、はじめからセディウムと合体した形で制定されていたり。

そういうものをぜんぶ統一してやろうというお話。

そういえば、アラビア文字には表音記号がそれなりにあるが、表音記号がくっついた形のUnicodeは存在していないので、分離にはあまり関係ないように思う。

ただ、若干関係する話といえば、ペルシア語とアラビア語で違うコードを使う文字が存在することだろうか。

たしか経験ではkehとyeが見た目が同じなのに、違うコードだった気がする。

で、一般的には（新聞社のサイトでは）アラビア文字のコードを使っていた気がする。

つまり、ここではペルシア語の　kehとyeはアラビア語の文字コードに統一（正規化）するのが正しい。ということになるのだろう。

ということを思い出した。