【发布时间】:2012-06-16 16:02:02
【问题描述】:
我有一个包含数万个 XML 文件(小型文件)的语料库,我正在尝试使用 Python 并提取其中一个 XML 标记中包含的文本,例如,body 标记之间的所有内容,例如:
<body> sample text here with <bold> nested </bold> tags in this paragraph </body>
然后编写一个包含此字符串的文本文档,然后在 XML 文件列表中向下移动。
我正在使用 effbot 的 ELementTree,但找不到正确的命令/语法来执行此操作。我找到了一个使用 miniDOM 的 dom.getElementsByTagName 的网站,但我不确定 ElementTree 的相应方法是什么。任何想法将不胜感激。
【问题讨论】:
-
我会先阅读一些教程; Dive into Python 3 XML chapter 将是一个好的开始。
-
在您的示例中,您是否还想获取标签
<bold>或仅获取其中的文本? -
在
body标签之外还有其他内容吗? -
这个答案也可能对stackoverflow.com/a/4624146/1290420有帮助
-
body 标签之外还有更多内容,但我认为对于所有 XML 文件,body 标签始终是根标签的子标签。我只想获取正文标签中的文本,而不是嵌套标签。感谢您的链接。我会试试的。