【发布时间】:2010-11-04 11:42:37
【问题描述】:
我需要存储可以使用任何语言的网站内容。而且我需要能够在内容中搜索 Unicode 字符串。
我尝试过类似的方法:
import urllib2
req = urllib2.urlopen('http://lenta.ru')
content = req.read()
内容是字节流,所以我可以搜索它以查找 Unicode 字符串。
我需要一些方法,当我执行 urlopen 然后读取时使用标题中的字符集来解码内容并将其编码为 UTF-8。
【问题讨论】:
-
编码是使用来自 urllib 库而不是来自 urllib2 的函数完成的。来自voidspace.org.uk/python/articles/urllib2.shtml#headers
-
@Macarse 这不是 Vitaly 所指的编码,他指的是用 '[byte string]'.decode('[charset]') 和 u' 对实际请求上下文进行解码和编码[unicode 字符串]'.encode('utf-8')。您指的是编码请求参数。