【发布时间】:2016-07-01 16:04:22
【问题描述】:
我正在制作一个网络爬虫。
我访问谷歌搜索,获得网页链接,然后获得<title> 标签的内容。
问题是,例如,字符串"P\xe1gina N\xe3o Encontrada!" 应该是"Página Não Encontrada!"。
我尝试解码为 latin-1,然后编码为 utf-8,但它不起作用。
r2 = requests.get(item_str)
texto_pagina = r2.text
soup_item = BeautifulSoup(texto_pagina,"html.parser")
empresa = soup_item.find_all("title")
print(empresa_str.decode('latin1').encode('utf8'))
你能帮帮我吗? 谢谢!
【问题讨论】:
-
也许这里有一些答案link
-
没用。我已经试过了...谢谢
-
你能告诉我们 print([empresa]) 的结果吗?所以我们可以准确地看到当前编码是什么。那是python3吗?
-
print(empresa_str) : [Ops...P\xe1gina N\xe3o Entrada!] [ANADI Consultoria ERP Totvs] [专家 | Consultoria Microsiga Protheus homologada e certificada Totvs - Home] [Consultoria TOTVS\xae | ALFA Sistemas de Gest\xe3o] [.: TOTVS IV2 - Tecnologia e Sistemas :.] [Consultoria TOTVS Protheus] [CONSULTORIA TOTVS PROTHEUS |系统]
-
代替
print(empresa_str),你能按照@YOU上面的建议做吗,即:print([empresa])?