【问题标题】:Python - How to determine hierarchy level of parsed XML elements?Python - 如何确定解析的 XML 元素的层次结构级别?
【发布时间】:2013-03-22 19:51:41
【问题描述】:

我正在尝试使用 Python 从 XML 文件中解析具有特定标记的元素并生成输出 excel 文档,该文档将包含元素并保留它们的层次结构。

我的问题是我无法弄清楚每个元素(解析器迭代的)嵌套的深度。

XML 样本提取(3 个元素,它们可以任意嵌套在自己内部):

<A>
   <B>
      <C>
      </C>
   </B>
</A>
<B>
    <A>
    </A>
</B>

以下代码使用 ElementTree 可以很好地迭代元素。但我认为 ElementTree 无法确定每个元素的嵌套深度。见下文:

import xml.etree.ElementTree as ET

root = ET.parse('XML_file.xml')
tree = root.getroot()
for element in tree.iter():
    if element.tag in ("A","B","C"):
        print(element.tag)

这将为我提供按正确顺序排列的元素 A、B、C 的列表。但我需要将它们打印出来,并附上他们的等级信息,

不仅如此:

A
B
C
B
A

但是类似:

A
--B
----C
B
--A

为了能够做到这一点,我需要获取每个元素的级别。有没有合适的python解析器可以轻松做到这一点?我会想象像“element.hierarchyLevel”这样会返回一些整数索引的东西......

【问题讨论】:

  • 您需要使用某种形式的堆栈。遇到一个打开的标签,将它压入堆栈,关闭标签,弹出它。这样,堆栈长度将始终包含嵌套级别。
  • 请注意,您几乎肯定要导入xml.etree.cElementTree,它比纯python 模块快很多倍并且100% 兼容。

标签: python xml parsing hierarchy


【解决方案1】:

你可以使用xml.sax.saxhandler:

import xml.sax as sax
import xml.sax.handler as saxhandler

class TreeBuilder(saxhandler.ContentHandler):
    # http://docs.python.org/library/xml.sax.handler.html#contenthandler-objects
    def __init__(self):
        self.level = 0
    def startElement(self, name, attrs):
        print('--'*self.level + name)
        self.level += 1
    def endElement(self, name):
        self.level -= 1

builder = TreeBuilder()
src = '''\
<root>
<A>
   <B>
      <C>
      </C>
   </B>
</A>
<B>
    <A>
    </A>
</B>
</root>
'''
sax.parseString(src, builder)

产量

root
--A
----B
------C
--B
----A

【讨论】:

  • 使用 SAX 似乎很聪明,但可能会坚持 Schoolboy 的想法。非常感谢您的帮助!
【解决方案2】:

尝试使用递归函数来跟踪您的“级别”。

import xml.etree.ElementTree as ET

def perf_func(elem, func, level=0):
    func(elem,level)
    for child in elem.getchildren():
        perf_func(child, func, level+1)

def print_level(elem,level):
    print '-'*level+elem.tag

root = ET.parse('XML_file.xml')
perf_func(root.getroot(), print_level)

【讨论】:

  • 非常感谢,这以非常漂亮的方式解决了它,将用解决方案更新问题(+一个微小的更正)
  • 你应该accept the answer你解决了这个问题。不要将其添加到您的问题中。
  • 有没有办法在标签旁边添加当前值?
  • 如何将此函数的输出保存到列表中?
猜你喜欢
  • 2017-09-02
  • 2018-01-03
  • 2012-06-16
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2014-09-28
  • 2012-12-04
  • 2012-12-17
相关资源
最近更新 更多