【问题标题】:How to keep HTML entities while parsing HTML with lxml?如何在使用 lxml 解析 HTML 时保留 HTML 实体?
【发布时间】:2015-07-20 12:30:57
【问题描述】:

有没有办法将 lxml 配置为不剥离 HTML 实体?即

from lxml import etree

parser = etree.XMLParser(recover=True, remove_blank_text=True, remove_comments=True)

html = '<html><body><p>&agrave;</body><p></html>'
parsed_tree = etree.XML(html, parser))
etree.tostring(parsed_tree) # returns '<html><body><p/><p/></body></html>'

我想将&amp;agrave; 保留在 HTML 中,而不是将其删除。

【问题讨论】:

    标签: python html lxml html-entities


    【解决方案1】:

    我解决了将etree.XMLParser 切换到etree.HTMLParseretree.XMLetree.HTML 的问题。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2011-09-29
      • 2011-04-03
      • 1970-01-01
      • 1970-01-01
      • 2020-04-17
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多