首页 文章

ICU / CLDR / UCA支持哪些日语排序/整理订单?

提问于
浏览
2

我相信,日语有多种顺序,相当于英文字母顺序 .

我相信至少有一个基于发音(我认为假名在历史上使用了两个顺序)和一个基于激进的笔画计数 . 中文也有多个订单,一个基于激进/中风,但由于Unicode Han Unification,相同的字符可以有不同的中文和日文笔画数 .

因为我认为Unicode中的排序顺序标准是CLDR,用于算法的UCA数据,参考实现是ICU .

实施通常落后于标准,这些信息很难追溯到规范来源 .

如果我使用语言说明符 ja 设置了一个collator,我应该使用哪种排序顺序?

如果有几个可供日语使用,或计划在某些时候可用,那么应该使用哪些说明符?例如,西班牙语的传统字母顺序的说明符是 es-u-co-trad .

1 回答

  • 3

    CLDR(以及ICU)提供的基本日语排序顺序基于JIS X 4061-1996中指定的排序顺序:

    • 假名按照gojuuon(五十音)顺序排序(平假名前面的片假名) .

    • 汉字按照他们在JIS X 0208中的顺序排序,这是他们的“representative reading”(并且跟随所有假名) .

    还可以使用 ja-u-co-unihan 排序规则,其中包括按行程顺序对激进程序进行排序的规则(后面是上面的标准规则) . 这只有在您实际排序激进时才有用 .

    如果您需要更准确的汉字分类 - 例如,通过阅读它们所使用的单词 - 您将需要使用字典执行某种形态分析以确定要使用的读数,然后应用Unicode排序规则那些算法 .

相关问题