【问题标题】:Encoding issue when reading file in Python在 Python 中读取文件时的编码问题
【发布时间】:2014-03-12 01:09:22
【问题描述】:

我有一个文件包含

    foo = "Gro\xdfbritannien"

我正在使用以下内容,但它始终显示带有 \x

的原始文本
    import codecs
    f = codecs.open('myfile', 'r', 'utf8')
    for line in f:
      print line
      print line.encode('utf-8')
      print line.decode('utf-8')

我看不到如何显示正确的编码文本,就像我正在做的那样

    >>> print u'Gro\xdfbritannien'
    Großbritannien

任何提示将不胜感激!

【问题讨论】:

  • 如果你的文件确实有一个带反斜杠的带引号的字符串和一个x,你需要用decode('string-escape')之类的东西来解析字符串。

标签: python utf-8 character-encoding internationalization utf


【解决方案1】:

当您的文件包含该行时

foo = "Gro\xdfbritannien"

它包含一个实际的反斜杠字符,后跟xdf。因此,如果该行被读入 Python 字符串,则会被读取为

'foo = "Gro\\xdfbritannien"'

(因为这些都是 ASCII 字符,所以用utf-8 编解码器打开它并不重要)。

所以您需要先使用string_escape 编解码器对其进行解码:

>>> foo.decode("string_escape")
'Gro\xdfbritannien'

然后 将其解码为正确的 Unicode 对象

>>> _.decode("latin1")
u'Gro\xdfbritannien'

然后你可以打印出来

>>> print _
Großbritannien

【讨论】:

  • 谢谢 - 与 print line.decode("string_escape").decode("latin1") 完美配合
【解决方案2】:

没有编解码器的业务。 你应该这样做 'foo = "Gro\xdfbritannien"'

>>> print u'Gro\\xdfbritannien'
Gro\xdfbritannien

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2019-05-18
    • 1970-01-01
    • 1970-01-01
    • 2015-07-27
    • 2018-07-16
    • 1970-01-01
    • 2014-04-18
    相关资源
    最近更新 更多