HTML实体代码到文本[重复]答案

【问题标题】：HTML Entity Codes to Text [duplicate]HTML实体代码到文本[重复]
【发布时间】：2010-10-14 08:46:44
【问题描述】：

有谁知道在 Python 中将带有 HTML 实体代码的字符串（例如 &lt;&amp;）转换为普通字符串（例如

cgi.escape() 将转义字符串（效果不佳），但没有unescape()。

【问题讨论】：

【解决方案1】：

HTMLParser 具有标准库中的功能。不幸的是，它没有记录：

(Python2Docs)

>>> import HTMLParser
>>> h= HTMLParser.HTMLParser()
>>> h.unescape('alpha &lt; &beta;')
u'alpha < \u03b2'

（Python 3 Docs）

>>> import html.parser
>>> h = html.parser.HTMLParser()
>>> h.unescape('alpha &lt; &beta;')
'alpha < \u03b2'

htmlentitydefs 已记录在案，但需要您自己完成大量工作。

如果您只需要 XML 预定义实体（lt、gt、amp、quot、apos），您可以使用 minidom 来解析它们。如果您只需要预定义的实体而不需要数字字符引用，您甚至可以使用普通的旧字符串替换来提高速度。

【讨论】：

【解决方案2】：

一开始我忘了标记它，但我正在使用 BeautifulSoup。

在文档中挖掘，我发现：

soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES)

完全按照我的希望进行。

【讨论】：

这仅适用于 BS4 之前的 BeautifulSoup 版本。如果您使用的是 BS4，则必须使用格式化程序：crummy.com/software/BeautifulSoup/bs4/doc/#output-formatters
它不适用于 &实际上，如果一个字符串包含 '&'，BeautifulSoup 会将其转换回 &，这与我希望的相反。

【解决方案3】：

Python 标准库中没有内置任何东西来对 HTML 进行转义，但您可以在 http://www.w3.org/QA/2008/04/unescape-html-entities-python.html 处定制一个简短的脚本以满足您的需求。

【讨论】：

【解决方案4】：

使用htmlentitydefs 模块。这是我的旧代码，它有效，但我确信有更清洁和更 Pythonic 的方式来做到这一点：

e2c = dict(('&%s;'%k,eval("u'\\u%04x'"%v)) for k, v in htmlentitydefs.name2codepoint.items())

【讨论】：