【发布时间】:2011-10-15 07:04:36
【问题描述】:
将规则 "NFD; [:Nonspacing Mark:] Remove; NFC" 输入到 ICU Transliterator demo 中,字符 Ø (\u00d8 == LATIN CAPITAL LETTER O WITH STROKE) 保持原样(即 STROKE 未被剥离)。
In the list of non-marking spaces(类别Mn),我找不到类似于COMBINING SHORT STROKE OVERLAY(\u0335)或COMBINING LONG STROKE OVERLAY(\u0336)的名称COMBINING DIAGONAL STROKE。
但是,我确实找到了 COMBINING SHORT SOLIDUS OVERLAY (\u0337) 和 COMBINING LONG SOLIDUS OVERLAY (\u0338)。它们看起来很相似,但在我的浏览器中与o 和O 结合使用时会呈现更粗的线条。
Unicode data I accessed for \u00d8 不提供该字符的分解。
同时,ICU Collator Demo 将使用 Primary (Level = 1 = 基本字母)整理者。
这是否意味着演示中使用的 Collator 的语言环境已设置为以 Unicode 规范未提及的方式识别基本字符?
如果是这样,如果我想在音译时从LATIN [CAPITAL, SMALL] LETTER * 字符中去除 STROKE,是否需要自定义基于规则的音译器?
【问题讨论】:
标签: unicode icu transliteration