【问题标题】:length of string in python3.5 with different encodepython3.5中不同编码的字符串长度
【发布时间】:2018-01-16 17:08:45
【问题描述】:

我在 python 中尝试过这个以获取字符串的长度(以字节为单位)。

>>> s = 'a'
>>> s.encode('utf-8')
b'a'
>>> s.encode('utf-16')
b'\xff\xfea\x00'
>>> s.encode('utf-32')
b'\xff\xfe\x00\x00a\x00\x00\x00'
>>> len(s.encode('utf-8'))
1
>>> len(s.encode('utf-16'))
4
>>> len(s.encode('utf-32'))
8

utf-8 使用一个字节来存储一个 ascii 字符,正如预期的那样,但是为什么 utf-16 使用 4 个字节呢? len() 精确测量什么?

【问题讨论】:

    标签: python unicode utf-8 utf-16 byte-order-mark


    【解决方案1】:

    您的长度看起来很奇怪的原因是 UTF-16 和 UTF-32 编码在编码期间将 byte order mark 附加到字符串的开头。这就是为什么字符串的长度似乎是您期望的两倍。他们使用两个代码点。字节顺序标记告诉你一些事情(字节顺序和编码是主要的)。所以基本上 len 的功能与您预期的一样(它正在测量编码表示中使用的字节数)。

    【讨论】:

      【解决方案2】:

      TL;DR:

      UTF-8 : 1 byte 'a'
      UTF-16: 2 bytes 'a' + 2 bytes BOM
      UTF-32: 4 bytes 'a' + 4 bytes BOM
      
      • UTF-8 是一种可变长度编码,字符的编码长度可以在 1 到 4 个字节之间。它旨在匹配前 128 个字符的 ASCII,因此 'a' 是单字节宽度

      • UTF-16 是一种变长编码;代码点用一个或两个 16 位代码单元(即 2 或 4 个字节)编码,'a' 为 2 个字节宽

      • UTF-32 是固定宽度,每个代码点正好 32 位,每个字符都是 4 个字节宽,所以 'a' 是 4 个字节宽

      对于以 UTF-8、UTF-16、UTF-32 编码的“a”的长度,您可能会分别看到 1、2、4 的结果。 1、4、8的实际结果被夸大了,因为在最后两种情况下输出包括BOM——那个\xff\xfe是字节序标记,用来表示数据的endianness

      unicode 标准允许使用 UTF-8 格式的 BOM,但既不要求也不推荐使用它(在那里没有任何意义),这就是为什么您在第一个示例中看不到任何 BOM。 UTF-16 BOM 为 2 字节宽,UTF-32 BOM 为 4 字节宽(实际上它与 UTF-16 BOM 相同,加上一些填充空值)。

      >>> 'a'.encode('utf-16')  # length 4: 2 bytes BOM + 2 bytes a
      b'\xff\xfea\x00'
        BOM.....a....
      >>> 'aaa'.encode('utf-16')  # length 8: 2 bytes BOM + 3*2 bytes of a
      b'\xff\xfea\x00a\x00a\x00'
        BOM.....a....a....a....
      

      如果您使用bitstring 模块查看原始位,可能会更清楚地看到数据中的 BOM:

      >>> # pip install bitstring
      >>> from bitstring import Bits
      >>> Bits(bytes='a'.encode('utf-32')).bin
      '1111111111111110000000000000000001100001000000000000000000000000'
      >>> Bits(bytes='aaa'.encode('utf-32')).bin
      '11111111111111100000000000000000011000010000000000000000000000000110000100000000000000000000000001100001000000000000000000000000'
       BOM.............................a...............................a...............................a...............................
      

      【讨论】:

        【解决方案3】:

        len() 返回对象的长度(项目数)。当您对字符串s.encode('utf-16') 进行编码时,python 返回带有字节顺序标记的字符串的编码版本。这计入字符串的长度。为了说明我的观点

        for i in range(0, len(s.encode('utf-16'))):
          print(s.encode('utf-16')[:i]) 
        

        结果:

        b''  #this is the byte order mark
        b'\xff'
        b'\xff\xfe'
        b'\xff\xfea'
        

        【讨论】:

          猜你喜欢
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 2012-12-23
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          相关资源
          最近更新 更多