urllib2 使用错误的 unicode 读取网页答案

【问题标题】：urllib2 reads web page with wrong unicodeurllib2 使用错误的 unicode 读取网页
【发布时间】：2015-09-19 01:22:17
【问题描述】：

我正在尝试在 python 中使用 urlib2 下载网页。

response = urlopen(url, timeout=10)
html = response.read()

html[170:198]
print html[170:198]

但据我了解，其中的“á”字符编码为“\u0e41”，即noThai Character Sara Ae。

Cadeia Acion\u0e41ria da Empresa 
Cadeia Acionแria da Empresa

打印命令的输出应该是：

Cadeia Acionária da Empresa

谁能告诉我我做错了什么？

【问题讨论】：

【解决方案1】：

我发现我做错了什么。网页编码是 ISO-8859-1，我在下载时没有对其进行解码。只需在下载后添加正确的编码即可一切正常。

response = urlopen(url, timeout=10)
html = response.read()
html = unicode(html, 'ISO-8859-1')

html[170:198]
print html[170:198]

现在打印的字符串是：

Cadeia Acion\xe1ria da Empresa
Cadeia Acionária da Empresa

使用正确的编码。

【讨论】：