【问题标题】:ASCII or UTF-8?ASCII 还是 UTF-8?
【发布时间】:2020-07-16 16:06:30
【问题描述】:

很久很久以前,世界脚本诞生之前,文本文件都是ASCII。
如今,我们拥有世界脚本。
我想问如果我在十六进制编辑器中打开一个文本文件,有没有办法告诉它的代码页是 ASCII 还是 UTF-8?

【问题讨论】:

  • 嗯,什么是“世界脚本”?不,文本文件从不“全是 ASCII”。
  • 抱歉,world script 是一项古老的 Apple 技术,可让用户在文件中输入除英语以外的其他语言并保存为 unicode 文件。
  • 不,这些文件不仅仅是 ASCII。我们有各种其他的标准和约定。幸运的是,您从未读过 EBCDIC,因此您不会做噩梦。最近,文件使用扩展 ASCII(每个扩展都与其他扩展不兼容,但用于标准 ASCII 部分)。如果你想睡个好觉,不要看前 32 个 ASCII 字符最初代表什么,以及它们是如何使用/不使用的。

标签: text utf-8 ascii


【解决方案1】:

UTF-8 向后兼容 ASCII:ASCII 文本文件也是 UTF-8 文本文件。

如果文件包含以 8 到 F 开头的字节,则它不是 ASCII。

如果文件不是 ASCII,如果每个以 C、D、E 或 F 开头的字节后跟一到三个以 8、9、A 或 B 开头的字节,则它可能是 UTF-8。如果这些字节中的任何一个都出现在不是 UTF-8 的任何其他上下文中。

对有效的 UTF-8 有更多要求,但使用十六进制编辑器更难收集。见https://en.m.wikipedia.org/wiki/UTF-8

【讨论】:

    猜你喜欢
    • 2016-09-29
    • 1970-01-01
    • 2014-02-13
    • 1970-01-01
    • 2011-12-13
    • 1970-01-01
    • 2014-06-19
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多