如何在使用 lxml 解析 HTML 时保留 HTML 实体？答案

【问题标题】：How to keep HTML entities while parsing HTML with lxml?如何在使用 lxml 解析 HTML 时保留 HTML 实体？
【发布时间】：2015-07-20 12:30:57
【问题描述】：

有没有办法将 lxml 配置为不剥离 HTML 实体？即

from lxml import etree

parser = etree.XMLParser(recover=True, remove_blank_text=True, remove_comments=True)

html = '<html><body><p>&agrave;</body><p></html>'
parsed_tree = etree.XML(html, parser))
etree.tostring(parsed_tree) # returns '<html><body><p/><p/></body></html>'

我想将&agrave; 保留在 HTML 中，而不是将其删除。

【问题讨论】：

标签： python html lxml html-entities

【解决方案1】：

我解决了将etree.XMLParser 切换到etree.HTMLParser 和etree.XML 到etree.HTML 的问题。

【讨论】：