【发布时间】:2009-10-20 15:18:26
【问题描述】:
如果我正在读取 HTML 文件的 XML,我是否必须读取告诉我能够读取文件的编码的标签?该标签的编码方式与文件的编码方式不同吗?我很好奇你是如何在不知道编码的情况下阅读该标签的。我意识到这是已解决的问题。我只是好奇它是怎么做到的。
更新 1
我不明白,在 UTF-16 中,每个字符不会占用 2 个字节,而不是一个,并且与 ascii 不同吗?例如,UTF-16 (U+0045) 中的字符 E 是 0xfeff0045。那是 0xfeff 然后是 0x0045,但是一些编码会改变它的字节序。您是否必须通过检查 0xfeff 并意识到它不能是 ASCII 或其他东西来弄清楚?
【问题讨论】:
标签: html xml character-encoding