Unicode文字の正規化
研究室の同期に教えてもらったUnicodeの正規化の話。
http://homepage1.nifty.com/nomenclator/unicode/normalization.htm
Unicodeが統一のために制定されたコードだと言っても、その内容は少しずつ違っていて、Cの下にちょろっとつくセディウムは、分解可能だったり、はじめからセディウムと合体した形で制定されていたり。
そういうものをぜんぶ統一してやろうというお話。
そういえば、アラビア文字には表音記号がそれなりにあるが、表音記号がくっついた形のUnicodeは存在していないので、分離にはあまり関係ないように思う。
ただ、若干関係する話といえば、ペルシア語とアラビア語で違うコードを使う文字が存在することだろうか。
たしか経験ではkehとyeが見た目が同じなのに、違うコードだった気がする。
で、一般的には(新聞社のサイトでは)アラビア文字のコードを使っていた気がする。
つまり、ここではペルシア語の kehとyeはアラビア語の文字コードに統一(正規化)するのが正しい。ということになるのだろう。
ということを思い出した。