【发布时间】:2011-04-10 09:00:43
【问题描述】:
有人可以确认中文中的所有汉字字符在 UTF-8 中都是 3 个字节长吗?
【问题讨论】:
标签: unicode utf-8 character-encoding cjk
有人可以确认中文中的所有汉字字符在 UTF-8 中都是 3 个字节长吗?
【问题讨论】:
标签: unicode utf-8 character-encoding cjk
是的,汉字是 U+4e00 到 U+9faf,UTF8 3 个字节是 U+0800 到 U+FFFF。
【讨论】:
常用的汉字/汉字字符在 U+4E00 和 U+9FFF 之间的“CJK 统一表意文字”块中,在 UTF-8 中占 3 个字节。 (日文平假名和片假名也占 3 个字节。)
但是,“CJK Unified Ideographs Extension B”和“CJK Compatibility Ideographs Supplement”块中也有一些很少使用的字符,在 UTF-8 中占用 4 个字节。
还要注意,中文文本通常包含 ASCII 字符,例如数字 0-9。
【讨论】: