【发布时间】:2016-12-23 07:10:17
【问题描述】:
我收到了一个假定 UTF-8 格式的文件,但是对于一些非英语字符有一些奇怪的编码。例如,在这个神秘的编码中,韩文字符串
한국경북영덕군강구면
编码为:
0xED959C 0xEAB5AD 0xEAB2BD 0xEBB63F 0xEC983F 0xEB3F95 0xEAB5B0 0xEAB095 0xEAB5AC 0xEBA9B4
(以粗体表示的差异)而不是标准的 UTF-8:
0xED959C 0xEAB5AD 0xEAB2BD 0xEBB681 0xEC9881 0xEB8D95 0xEAB5B0 0xEAB095 0xEAB5AC 0xEBA9B4"
我在西里尔文和中文字符上看到了相同的现象——有些字符的编码与 UTF-8 相同,但有些不同。乱码字符与非乱码字符具有相同的字节宽度,并且我已经验证它们不是扩展集的一部分。另外,我已经验证了这是 not Java“Modified UTF-8”。
关于这可能是什么的任何其他想法?
顺便说一句:我无权访问代码或最初编写该文件的人。
另外,我使用的是 Mac 10.11.6,以防万一。
【问题讨论】:
标签: utf-8