【发布时间】:2012-08-16 13:21:01
【问题描述】:
我正在开发一个网络爬虫来自动下载巴西网站上的一些文档。它使用了一些未知的编码(head 标签中没有定义字符集)。
只需很少的努力,人们就可以阅读这些文档。但真正的问题是,列出文档的页面使用的链接带有包含重音字符的 url。但是,在不知道页面编码的情况下,当我从 urllib2.urlopen 中检索它时,字符都乱了。
例如Í 字符为Cyrillic capital letter E。
我正在使用 BeautifulSoup 并且 prettify 不起作用,因为 urllib2 已经返回带有错误字符的文档。
还有一件事:soup.originalEncoding 返回None。
如何将urllib2.urlopen 设置为识别字符集或设置“预期编码”,使其返回浏览器上显示的字符?
【问题讨论】:
-
巴西的编码可以是多少? cp860? docs.python.org/library/…