【问题标题】:Concatenating Unicode with string: print '£' + '1' works, but print '£' + u'1' throws UnicodeDecodeError将 Unicode 与字符串连接: print '£' + '1' 有效,但 print '£' + u'1' 抛出 UnicodeDecodeError
【发布时间】:2015-10-24 15:26:14
【问题描述】:

我观察到以下情况:

>>> print '£' + '1'
£1
>>> print '£' + u'1'
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 0: ordinal not in range(128)
>>> print u'£' + u'1'
£1
>>> print u'£' + '1'
£1

为什么'£' + '1' 有效但'£' + u'1' 无效?

我查看了类型:

>>> type('£' + '1')
<type 'str'>
>>> type('£' + u'1')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 0: ordinal not in range(128)
>>> type(u'£' + u'1')
<type 'unicode'>

这也让我感到困惑。如果'£' + '1'str 而不是unicode,为什么它可以在我的终端上正确打印?它不应该打印类似'\xc2\xa31'?

此外,我还观察到以下几点:

>>> u'£' + '1'
u'\xa31'
>>> type('1')
<type 'str'>
>>> type(u'£')
<type 'unicode'>
>>> print u'£' + '1'
£1

为什么u'£' + '1' 不能正确打印出£ 符号,而print u'£' + '1' 可以?是不是因为前者用了repr,而后者用了str

另外,unicodestr 的串联在这种情况下如何工作,而在 '£' + u'1' 情况下却不行?

【问题讨论】:

  • Afaik 你只能连接相同类型的字符串,即u'£'+u'1''£'+'1'。你不能混合它们。
  • 您正尝试使用print '£' + u'1' 解码为ascii,打印时您永远不会看到'\xc2\xa31',除非您打印对象的reprprint '£' + '1' 有效,因为您的shell配置为接受 utf-8
  • @Bjorn 可以,我做过很多次了,看更新的问题
  • 男孩,你真的击中了所有的重复项。我应该把它作为一个关闭。
  • @MartijnPieters 很抱歉,你能指点我吗?

标签: python unicode string-concatenation


【解决方案1】:

您正在混合对象类型

'£' 是一个字节串,包含编码数据。这些字节恰好代表您的终端或控制台中的井号,它既不存在也不存在,它可能只是图像中的一个像素。您的终端或控制台被配置为生成和接受 UTF-8 数据,因此当以十六进制表示时,该字节串的 实际 内容是 两个 字节 C2 和 A3。

另一方面,

u'1' 是一个 Unicode 字符串。它是明确的文本数据。如果您想将其他数据连接到它,它也应该是 Unicode。如果您尝试这样做,Python 2 将使用默认的 ASCII 编解码器自动将 str 字节解码为 Unicode。

但是,'£' 字节串不能解码为 ASCII。它可以解码为UTF-8;显式解码字节,因为我们在这里知道正确的编解码器:

print '£'.decode('utf8') + u'1'

当向终端或控制台写入字节时,是您的终端或控制台解释字节并理解它们。如果您将unicode 对象写入终端,则sys.stdout 对象负责编码,将文本转换为您的终端或控制台可以理解的字节。

这同样适用于接受输入; sys.stdin 流产生字节,当您使用 u'£' 语法创建 Unicode 对象时,Python 可以透明地解码这些字节。您在键盘上键入字符,终端或控制台将其转换为 UTF-8 字节,然后写入 Python 进行解释。

那么,'\xc2\xa3'print 的写法是一个快乐的巧合。您可以获取unicode 对象,将其编码为不同的编解码器,并以垃圾输出结束:

>>> print u'£1'.encode('latin-1')
?1

我的 Mac 终端将为 £ 符号写入的数据转换为 ?,因为 A3 字节(井号符号的 Latin-1 代码点)在解释为 UTF-8 时不会映射到任何内容。

Python 根据locale.getpreferredencoding() function 确定终端或控制台编解码器,您可以通过sys.stdout.encodingsys.stdin.encoding 属性观察您的终端或控制台使用的通信内容:

>>> import sys
>>> sys.stdout.encoding
'UTF-8'

最后但同样重要的是,您不应将 打印 与解释器在交互模式下回显的表示相混淆。解释器使用repr() 函数显示表达式的结果,该函数是一个调试工具,尽可能使用only ASCII 字符生成Python 文字符号。对于 Unicode 值,这意味着任何 不可打印的非 ASCII 字符都使用转义序列来反映。这使得该值适用于复制和粘贴,而不仅需要支持 ASCII 的介质。

例如,strrepr() 结果使用\n 换行,\xhh 十六进制转义用于在可打印范围之外没有专用转义序列的字节。此外,对于unicode 对象,Latin-1 范围之外的代码点用\uhhhh\Uhhhhhhhh 转义序列表示,具体取决于它们是否是基本多语言平面的一部分:

>>> u'''\
... A multiline string to show newlines
... can contain £ latin characters
... or emoji ?!
... '''
u'A multiline string to show newlines\ncan contain \xa3 latin characters\nor emoji \U0001f4a9!\n'
>>> print _
A multiline string to show newlines
can contain £ latin characters
or emoji ?!

【讨论】:

  • 好的,谢谢。所以u'£' + '1' 有效是因为'1' 可以解码为UTF-8?
  • 但是u'£' + '1'返回一个unicode对象,那么它是如何结合ASCII和UTF-8对象的呢?我原以为它会将'1' 转换为等效的 UTF-8,然后连接两个 UTF-8 对象,这是微不足道的
  • 没有 UTF-8 对象。你有一个 Unicode 对象。 UTF-8 是一种编解码器,一种将 Unicode 代码点编码为字节的方法,它与 Unicode 数据本身不同,就像使用 ISO 8601 符号记下日期和时间与时间戳不同一样本身。
  • @texasflood:Python 必须从 UTF-8 解码以生成 unicode 对象既不存在也不存在。 '1' 是从 ASCII 隐式解码的,因为您尝试将其与 unicode 对象连接。
猜你喜欢
  • 1970-01-01
  • 2022-01-25
  • 2017-06-11
  • 1970-01-01
  • 1970-01-01
  • 2020-03-19
  • 2023-01-06
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多