【发布时间】:2015-04-19 06:31:10
【问题描述】:
必须处理一堆格式不正确的 XML 文件。 它们的格式不正确,因为在许多子项中,属性名称有一个空格:
<...>
<bar attr1="..." attr xy="...">
foo
</bar>
</...>
有没有合适的方法来处理这个问题? 目前我正在使用 Python ElementTree 进行解析。
(我猜是空白是问题,错误信息指向空白。
cElementTree.ParseError: not well-formed (invalid token): line 435, column 214
据我了解,它被解释为缺少价值的属性)
我知道在解析错误的内容之前有可能只替换它。
【问题讨论】:
标签: python xml-parsing