【发布时间】:2012-03-25 00:43:30
【问题描述】:
我有一个可能包含某些编码字符的 html 页面列表。一些例子如下 -
<a href="mailto:lad%20at%20maestro%20dot%20com">
<em>ada@graphics.maestro.com</em>
<em>mel@graphics.maestro.com</em>
我想将这些字符串解码(转义,我不确定当前的术语)为 -
<a href="mailto:lad at maestro dot com">
<em>ada@graphics.maestro.com</em>
<em>mel@graphics.maestro.com</em>
注意,HTML 页面是字符串格式的。另外,我不想使用任何外部库,如 BeautifulSoup 或 lxml,只有原生 python 库可以。
编辑 -
以下解决方案并不完美。使用 urllib2 进行转义的 HTML 解析器会抛出一个
UnicodeDecodeError: 'ascii' codec can't decode byte 0x94 in position 31: ordinal not in range(128)
在某些情况下会出错。
【问题讨论】:
标签: python character-encoding decode encode