Python - 使用 lxml 查找特定的 XML 元素答案

【问题标题】：Python - Find specific XML element using lxmlPython - 使用 lxml 查找特定的 XML 元素
【发布时间】：2021-02-05 02:32:57
【问题描述】：

背景：我知道有人问过这个问题，但我真的很难找到正确的 Xpath 公式。我正在使用 iTunes XML 文件。所以Apple真的很烦他们如何格式化这个文件......而不是制作标签，然后将文本作为ID，他们只使用 , , 标签。这让试图找到正确的元素变得非常混乱。

我一直在尝试关注这个问题：Python ElementTree: find element by its child's text using XPath 但它对我不起作用。我一直在阅读这个 (https://lxml.de/tutorial.html) 文档，但我没有找到我需要的答案。我相当肯定 Xpath 是要走的路，但我会采纳更好的建议。

我确实尝试过使用一些 iTunes 特定的库。似乎它们都过时了，或者只是没有按照我的需要工作。我最初使用的是 Elementtree，但是当 Apple 以这种方式格式化文件时，lxml 的 getnext() 功能是一个救星。

示例 XML 文件：

<plist version="1.0">
<dict>
    <key>Library Persistent ID</key><string>6948B4402F0EEFFF</string>
    <key>Tracks</key>
    <dict>
        <key>18051</key>
        <dict>
            <key>Track ID</key><integer>18051</integer>
            <key>Size</key><integer>7930116</integer>
            <key>Total Time</key><integer>196336</integer>
            <key>BPM</key><integer>86</integer>
            <key>Date Modified</key><date>2018-10-23T12:41:05Z</date>
            <key>Date Added</key><date>2017-07-25T02:49:11Z</date>
        </dict>
        <key>18053</key>
        <dict>
            <key>Track ID</key><integer>18053</integer>
            <key>Size</key><integer>9780560</integer>
            <key>Total Time</key><integer>243513</integer>
            <key>Year</key><integer>2010</integer>
            <key>BPM</key><integer>74</integer>
            <key>Date Modified</key><date>2018-10-23T12:41:09Z</date>
            <key>Date Added</key><date>2017-07-25T02:49:11Z</date>
        </dict>
        <key>18055</key>
        <dict>
            <key>Track ID</key><integer>18055</integer>
            <key>Size</key><integer>12995663</integer>
            <key>Total Time</key><integer>323604</integer>
            <key>Year</key><integer>2005</integer>
            <key>BPM</key><integer>76</integer>
            <key>Date Modified</key><date>2018-10-23T12:41:14Z</date>
        <key>Date Added</key><date>2017-07-25T02:49:11Z</date>
        </dict>

方法：因此，假设我需要找到具有 ID '18053' 的元素，而不是递归地迭代所有内容（我已经想出了如何去做），如果我可以检查 ID # 会更有效率。然后获取

之后的元素

我尝试了以下方法：

root = etree.parse(xml_file_path)
key_found = root.xpath("//key[text()='18053']")
element_wanted = key_found.getnext()

但是会出错，因为 key_found 是一个列表，而不是一个元素。

使用 find，应该返回一个元素，但使用以下内容：

key_found = root.find("//key[text()='18053']")

我收到一个错误“坏谓词”

感谢任何帮助。我已经为此工作了几天了。怪苹果！谢谢！

【问题讨论】：

xpath 返回列表有什么问题？只需询问element_wanted = key_found[0].getnext()（可能先检查key_found 是否为空）。

标签： python xml lxml

【解决方案1】：

xpath 方法应该返回一个列表，所以

element_wanted = key_found.getnext()

会

element_wanted = key_found[0].getnext()

如果您还测试列表是否包含元素

【讨论】：

天啊.... 显然我已经盯着这个太久了。感谢您成为第二双眼睛。