【发布时间】:2015-09-09 15:30:28
【问题描述】:
xml 文档的结构如下所示
<a>
<b>
<d>
</b>
<c attr1="important"/>
<b>
<d>
</b>
<c attr1="so important" />
<b></b>
</a>
我的解析器首先获取所有 <d> 元素
from lxml import etree
xmltree = etree.parse(document)
elems = xmltree.xpath('//d')
现在的任务是:
从最近的<c>标签中获取属性在当前<d>标签之前,如果有的话。
天真的方法是做如下的事情
for el in elems:
it = el.getparent()
while it != None and it.tag != 'c':
prev = it.getprevious()
if prev == None:
it = it.getparent()
else:
it = prev
if it != None:
print el, it.get("attr1")
但对我来说,这看起来并不简单 - 我是否遗漏了文档中的某些内容?在不实现自己的迭代器的情况下如何解决这个问题?
【问题讨论】:
标签: python xml xpath xml-parsing elementtree