【问题标题】:Python lxml.etree retain entity referencesPython lxml.etree 保留实体引用
【发布时间】:2019-11-11 20:00:02
【问题描述】:

我正在创建一个简单的脚本来使用特定模式解析、验证、修复和重新打印 XML 文件。整个事情都很好,但问题是当我打印修改后的 ElementTree 时,它​​会删除我所有的实体引用。

这是简化的python代码:

from pathlib import Path

from lxml import etree as ET
from lxml.builder import E

schema = ET.XMLSchema('C:/path/to/schema.xsd')
parser = ET.XMLParser(recover=True)
source_file = Path('file.xml')
tree = ET.parse(source_file.name, parser, base_url="http://www.domain.url")
root = tree.getroot()

# Do some validation

source_file.write_text(ET.tostring(tree, encoding='utf-8').decode(encoding='utf-8'), encoding='utf-8') 

这是“之前”XML 的 sn-p:

<!DOCTYPE element [
<!ENTITY % ISOEntities PUBLIC "ISO 8879-1986//ENTITIES ISO Character Entities 20030531//EN//XML" "http://www.domain.url/path/to/ISOEntities"> 
%ISOEntities
]>
<para>&minus;67 to 250&deg;</para>

之后:

<!DOCTYPE element [
<!ENTITY % ISOEntities PUBLIC "ISO 8879-1986//ENTITIES ISO Character Entities 20030531//EN//XML" "http://www.domain.url/path/to/ISOEntities"> 
<! -- THE ENTIRE CONTENTS OF ISOENTITIES (100s of lines of code) -->
]>
<para>-67 to 250°</para>

虽然技术上“正确”,但我想将它们保留为实体引用而不是文字字符。如前所述,它还解决了我不想要的ISOEntities

现在,我尝试的明显解决方案是将resolve_entities=False kwarg 添加到解析器。结果是完全删除了引用并简单地将它们替换为空。

<!DOCTYPE element [
<!ENTITY % ISOEntities PUBLIC "ISO 8879-1986//ENTITIES ISO Character Entities 20030531//EN//XML" "http://www.domain.url/path/to/ISOEntities"> 
%ISOEntities
]>
<para>67 to 250</para>

有什么方法可以像解析时一样将树打印为字符串? (即保持 internalDTD 相同并保持实体引用不变)

编辑:在tostring 操作之前使用调试器验证实体是否丢失,因此消除它们的肯定是解析过程,而不是转换为字符串。

【问题讨论】:

    标签: python xml-parsing lxml entities


    【解决方案1】:

    所以我没有找到这个问题的好答案。实体都在 %IsoEntities 中声明,但因为它本身也是一个实体,并且我将其设置为不解析实体,所以解析器无法解析 %IsoEntities,因此无法识别任何实体其他实体也是如此。

    但我确实找到了解决方法。原来&amp;amp; 没有被替换,我猜是因为它是一个独特的案例。所以解决方法是将所有&amp;amp; 替换为&amp;amp;。所以你会发送&amp;amp;minus;之类的东西。解析器不会将其识别为实体,并将保持原样。将 ElementTree 转换为字符串格式后,您可以再次检查并将所有 &amp;amp; 替换为 &amp;amp;,这样您就可以再次使用原始实体了。

    我仍然很想知道是否有人有更好的答案。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-08-27
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多