【发布时间】:2012-09-25 18:32:14
【问题描述】:
我有一段 Python 3 代码可以从网站检索信息:
webpage = urllib.request.urlopen('http://www.bdm.insee.fr/bdm2/index.action')
webpage = webpage.read()
webpage = webpage.decode("ISO-8859-1")
parser = etree.HTMLParser()
tree = etree.fromstring(webpage,parser)
for liste in tree.iterfind(".//ul"):
print(etree.tostring(liste, pretty_print=True).decode("utf-8"))
我不明白为什么有些字符编码正确,而有些则没有。这是输出的一部分:
<ul class="liens"><li><a href="http://www.insee.fr/fr/publications-et-services/default.asp?page=rediffusion/rediffusion-abon-bdm.htm">Souscription</a></li>
</ul>
<ul id="lienstransversauxbas"><li class="premier" id="navigation-lettre">
<a href="http://www.insee.fr/fr/publications-et-services/default.asp?page=abonnements/liste-abonnements.htm" title="Lire la lettre d'information">Lettre d'information</a>
</li>
<li id="navigation-plan">
<a accesskey="3" href="http://www.insee.fr/fr/publications-et-services/services/plan-du-site.asp" title="Plan du site">Plan du site</a>
</li>
<li id="navigation-boutique">
<a href="http://www.webcommerce.insee.fr/index.php" title="Accéder à la boutique en ligne">Acheter les publications</a>
</li>
<li id="navigation-credits">
<a accesskey="8" href="http://www.insee.fr/fr/publications-et-services/default.asp?page=copyright.htm" title="Copyright Insee">Mentions légales et crédits</a>
</li>
</ul>
那些 是什么?
谢谢,
迈克尔
【问题讨论】:
-
不要使用
urllib.. 我建议requests- 它适用于现代网络! -
这并不是一个坏建议,但这与他所看到的行为完全无关。
-
如果我能坚持使用标准包会更好,但感谢您的建议。
标签: python unicode encoding lxml