【发布时间】:2019-01-26 16:08:54
【问题描述】:
考虑以下 sn-p:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head><title>©</title></head>
<body></body>
</html>
根据 W3C 的验证器 (https://validator.w3.org/),它被视为有效的 XHTML 1.0 过渡。但是,Python (3.7) 的 ElementTree 用
$ python -c 'from xml.etree import ElementTree as ET; ET.parse("foo.html")'
Traceback (most recent call last):
File "<string>", line 1, in <module>
File "/usr/lib/python3.7/xml/etree/ElementTree.py", line 1197, in parse
tree.parse(source, parser)
File "/usr/lib/python3.7/xml/etree/ElementTree.py", line 598, in parse
self._root = parser._parse_whole(source)
xml.etree.ElementTree.ParseError: undefined entity ©: line 4, column 15
请注意,&copy; 确实是(最终)在xhtml-lat1.ent 中定义的实体。
有没有办法使用 ElementTree 解析此类文档? An answer to a similar question 建议手动将适当的 XML 定义添加到 HTML 内容(例如 <!ENTITY nbsp ' '>),但这并不是一个真正的通用解决方案(除非将包含所有定义的标题添加到任何文档,但似乎应该有更简单的东西? )。
提前致谢。
【问题讨论】:
-
可能是愚蠢的问题,但“foo.html”是您正在解析的文件的名称吗?那将是 HTML,而不是 XHTML;这不会把解析器扔掉吗?
-
没关系(如果需要,将其重命名为 xhtml,错误仍然存在)。
标签: python parsing xhtml elementtree