使用 ElementTree 解析包括标准实体的 XHTML答案

【问题标题】：Parsing XHTML including standard entities using ElementTree使用 ElementTree 解析包括标准实体的 XHTML
【发布时间】：2019-01-26 16:08:54
【问题描述】：

考虑以下 sn-p：

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
  "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
  <head><title>&copy;</title></head>
  <body></body>
</html>

根据 W3C 的验证器 (https://validator.w3.org/)，它被视为有效的 XHTML 1.0 过渡。但是，Python (3.7) 的 ElementTree 用

$ python -c 'from xml.etree import ElementTree as ET; ET.parse("foo.html")'
Traceback (most recent call last):
File "<string>", line 1, in <module>
File "/usr/lib/python3.7/xml/etree/ElementTree.py", line 1197, in parse
    tree.parse(source, parser)
File "/usr/lib/python3.7/xml/etree/ElementTree.py", line 598, in parse
    self._root = parser._parse_whole(source)
xml.etree.ElementTree.ParseError: undefined entity &copy;: line 4, column 15

请注意，&copy; 确实是（最终）在xhtml-lat1.ent 中定义的实体。

有没有办法使用 ElementTree 解析此类文档？ An answer to a similar question 建议手动将适当的 XML 定义添加到 HTML 内容（例如 <!ENTITY nbsp ' '>），但这并不是一个真正的通用解决方案（除非将包含所有定义的标题添加到任何文档，但似乎应该有更简单的东西？ )。

提前致谢。

【问题讨论】：

可能是愚蠢的问题，但“foo.html”是您正在解析的文件的名称吗？那将是 HTML，而不是 XHTML；这不会把解析器扔掉吗？
没关系（如果需要，将其重命名为 xhtml，错误仍然存在）。

标签： python parsing xhtml elementtree

【解决方案1】：

考虑一下lxml？

from lxml import html


root = html.fromstring("""
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
  "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
  <head><title>&copy;</title></head>
  <body></body>
</html>
""".strip())
print(root.head.getchildren()[0].text)
# '©'

from html.parser import HTMLParser


parser = HTMLParser()
parser.feed("""
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
  "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
  <head><title>&copy;</title></head>
  <body></body>
</html>
""".strip())
# no error

但是它的api真的很难用lol。 lxml 提供了等价的api。

【讨论】：

似乎应该有一个内置的解决方案，但可以肯定的是，lxml 已经足够了。
@antony 好吧，如果您可以接受使用html.parser.HTMLParser，您可以使用内置解决方案。