【问题标题】:urllib2 reads web page with wrong unicodeurllib2 使用错误的 unicode 读取网页
【发布时间】:2015-09-19 01:22:17
【问题描述】:

我正在尝试在 python 中使用 urlib2 下载网页。

response = urlopen(url, timeout=10)
html = response.read()

html[170:198]
print html[170:198]

但据我了解,其中的“á”字符编码为“\u0e41”,即noThai Character Sara Ae

Cadeia Acion\u0e41ria da Empresa 
Cadeia Acionแria da Empresa

打印命令的输出应该是:

Cadeia Acionária da Empresa 

谁能告诉我我做错了什么?

【问题讨论】:

标签: python unicode character-encoding urllib2


【解决方案1】:

我发现我做错了什么。网页编码是 ISO-8859-1,我在下载时没有对其进行解码。只需在下载后添加正确的编码即可一切正常。

response = urlopen(url, timeout=10)
html = response.read()
html = unicode(html, 'ISO-8859-1')

html[170:198]
print html[170:198]

现在打印的字符串是:

Cadeia Acion\xe1ria da Empresa
Cadeia Acionária da Empresa 

使用正确的编码。

【讨论】:

    猜你喜欢
    • 2010-11-04
    • 2015-12-03
    • 2013-12-22
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-04-18
    • 1970-01-01
    相关资源
    最近更新 更多