【发布时间】:2010-10-14 08:46:44
【问题描述】:
有谁知道在 Python 中将带有 HTML 实体代码的字符串(例如 <&)转换为普通字符串(例如
cgi.escape() 将转义字符串(效果不佳),但没有unescape()。
【问题讨论】:
标签: python html beautifulsoup
有谁知道在 Python 中将带有 HTML 实体代码的字符串(例如 <&)转换为普通字符串(例如
cgi.escape() 将转义字符串(效果不佳),但没有unescape()。
【问题讨论】:
标签: python html beautifulsoup
HTMLParser 具有标准库中的功能。不幸的是,它没有记录:
(Python2Docs)
>>> import HTMLParser
>>> h= HTMLParser.HTMLParser()
>>> h.unescape('alpha < β')
u'alpha < \u03b2'
(Python 3 Docs)
>>> import html.parser
>>> h = html.parser.HTMLParser()
>>> h.unescape('alpha < β')
'alpha < \u03b2'
htmlentitydefs 已记录在案,但需要您自己完成大量工作。
如果您只需要 XML 预定义实体(lt、gt、amp、quot、apos),您可以使用 minidom 来解析它们。如果您只需要预定义的实体而不需要数字字符引用,您甚至可以使用普通的旧字符串替换来提高速度。
【讨论】:
一开始我忘了标记它,但我正在使用 BeautifulSoup。
在文档中挖掘,我发现:
soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES)
完全按照我的希望进行。
【讨论】:
Python 标准库中没有内置任何东西来对 HTML 进行转义,但您可以在 http://www.w3.org/QA/2008/04/unescape-html-entities-python.html 处定制一个简短的脚本以满足您的需求。
【讨论】:
使用htmlentitydefs 模块。这是我的旧代码,它有效,但我确信有更清洁和更 Pythonic 的方式来做到这一点:
e2c = dict(('&%s;'%k,eval("u'\\u%04x'"%v)) for k, v in htmlentitydefs.name2codepoint.items())
【讨论】: