【问题标题】:Encoding and character set for iso-8859-1iso-8859-1 的编码和字符集
【发布时间】:2016-11-26 02:24:01
【问题描述】:

我已阅读 Joel 关于编码的文章。据我了解,在 unicode 的情况下:

  1. unicode 是一个字符集 - 整数值和字符之间的映射
  2. utf-8 是一种编码,用于 unicode 整数以二进制视图呈现它们

iso-8859-1 怎么样?是编码还是字符集还是两者兼而有之?

【问题讨论】:

  • What is ANSI format?的可能重复
  • 它是特定字符集的编码。 Unicode 的出现是为了解决这些 8 位编码带来的灾难。它们中有太多常用的,像微软、苹果、Adobe、IBM 这样的公司在字符集的一部分上做出了不兼容的选择。 ISO 通过增加 16 种错误方法解决了这个问题。不要使用它。

标签: unicode encoding utf-8 iso-8859-1


【解决方案1】:

iso-8859-1 怎么样?是编码还是字符集还是两者兼而有之?

从历史上看,它被描述为编码字符集:它定义了一组字符,以及这些字符到字节值的映射——我们今天称之为编码,但在这些术语中没有明确描述。

创建 Unicode 时,它​​被设计为包含(几乎)广泛使用的字符集中的所有字符,因此它将由 ISO-8859-1 编码字符集定义的字节流重新转换为更广泛通用的编码字符集。

因此,如果您在现代 Unicode 环境中工作,您会认为 ISO-8859-1 是一种编码。但是也不能说是一个字符集就错了。

(还有其他绝对不是字符集的编码:例如 UTF 和多字节编码,如 Shift-JIS,它本身被定义为在 Unicode 的扩展和拥抱之前的 JIS X 0208 字符集的编码.)

【讨论】:

    【解决方案2】:

    ISO 8859-1 (Latin-1) 是单字节编码。它代表前 256 个 Unicode 字符。所以,只要是 Unicode 字符集的子集,我想它可以同时被视为编码和字符集。

    【讨论】:

      猜你喜欢
      • 2011-02-12
      • 2014-01-18
      • 2011-05-22
      • 2011-12-27
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-07-26
      相关资源
      最近更新 更多