【发布时间】:2011-10-19 15:59:57
【问题描述】:
某些字符,例如 Unicode 字符“LATIN SMALL LETTER C WITH CARON”可以编码为0xC4 0x8D,但也可以用“LATIN SMALL LETTER C”和“COMBINING CARON”两个代码点来表示,这是0x63 0xcc 0x8c。
更多信息在这里:http://www.fileformat.info/info/unicode/char/10d/index.htm
我想知道是否有一个库可以将“LATIN SMALL LETTER C”+“COMBINING CARON”转换为“LATIN SMALL LETTER C WITH CARON”。或者是否有包含这些转换的表格?
【问题讨论】:
-
请不要考虑 8 位代码单元。只考虑逻辑代码点。您可以使用
unicode_utils转换为 NFC 形式,但这并不能满足您的要求,因为您想要的是不可能的。