【发布时间】:2019-08-17 07:39:41
【问题描述】:
我想将 XML 文件中的数据解析为多索引 pandas 数据框。我的 XML 文件如下所示:
<?xml version="1.0"?>
<catalog>
<book name="Documents/Books/German">
<author>Kerstin Gier</author>
<title>Rubinrot</title>
</book>
<book name="Documents/Articles/English">
<author>Kim Ralls</author>
<title>Midnight Rain</title>
</book>
<book name="Documents/Books/English">
<author>Eva Corets</author>
<title>Maeve Ascendant</title>
</book>
<book name="Documents/Books/English">
<author>Karl Parker</author>
<title>Worldeater</title>
</book>
</catalog>
我们的目标是将所有书籍标签中的数据存储到一个多索引 pandas 数据框中,如下所示:
author title
Documents Books German Kerstin Gier Rubinrot
English Eva Corets Maeve Ascendant
Karl Parker Worldeater
Articles German Null Null
English Kim Ralls Midnight Rain
多索引数据框的索引应该是属性“名称”包含的路径。我不想硬编码任何路径,因为我的真实示例有许多不同的路径,并且多索引数据框将有 5-6 个维度。
到目前为止我的方法: 我开始创建一个看起来像这样的单个索引数据框
path author title
Documents/Books/German Kerstin Gier Rubinrot
Documents/Articles/English Kim Ralls Midnight Rain
Documents/Books/English Eva Corets Maeve Ascendant
Documents/Books/English Karl Parker Worldeater
问题是:如何将数据帧转换为以路径结构为索引的多索引数据帧?我看到的问题是在不丢失与数据的绑定的情况下更改索引。
【问题讨论】:
-
不,我需要一个生成多索引数据帧的解决方案。这(据我所知)更复杂。不过感谢您的建议。这是一个很好的备份解决方案。
-
这样解析不可以,事后创建多索引?
-
这可能是一个选项。我编辑了我的问题。感谢您迄今为止的帮助!
-
根据编辑回答
标签: python xml pandas xml.etree