【发布时间】:2015-07-20 12:30:57
【问题描述】:
有没有办法将 lxml 配置为不剥离 HTML 实体?即
from lxml import etree
parser = etree.XMLParser(recover=True, remove_blank_text=True, remove_comments=True)
html = '<html><body><p>à</body><p></html>'
parsed_tree = etree.XML(html, parser))
etree.tostring(parsed_tree) # returns '<html><body><p/><p/></body></html>'
我想将&agrave; 保留在 HTML 中,而不是将其删除。
【问题讨论】:
标签: python html lxml html-entities