【发布时间】:2021-10-29 07:23:27
【问题描述】:
<app>
<doc>
<field name="id">013</field>
<field name="groupid">013</field>
<field name="img_url">8b4</field>
<field name="filetype">HTML</field>
<field name="url">https://calgaryherald.com/pmn/business-pmn/sally-rumbles-toward-u-s-/</field>
<field name="topic">accurate</field>
<field name="topic">additional</field>
<field name="topic">agriculture</field>
<field name="topic">area</field>
<field name="topic">biggest</field>
</doc>
<doc>
<field name="id">0131</field>
<field name="groupid">013</field>
<field name="img_url">8b</field>
<field name="filetype">HTML</field>
<field name="url">https://calgaryherald.com/pmn/business-pmn/sally-rumbles-toward</field>
<field name="topic">accurate</field>
<field name="topic">additional</field>
<field name="topic">agriculture</field>
<field name="topic">area</field>
<field name="topic">biggest1</field>
<field name="topic">biggest2</field>
<field name="topic">biggest3</field>
</doc>
</app>
我有一个与此类似的 xml,我需要将其转换为 python 中的 csv。有谁知道该怎么做,而且不同文档的字段名称主题也不同,csv标题应该与字段名称相似,主题应该在一个以逗号分隔的单元格中。
【问题讨论】:
-
字段名称是否提前知道?您希望如何在 csv 中存储多个主题。我认为它们应该是单个“主题”列中的某种列表。它们会用逗号分隔吗,有点像嵌入在 csv 单元格中的 csv?
-
@tdelaney 是的,字段名称是事先知道的。并且主题应该用逗号分隔在一个单元格中
-
“主题应该用逗号分隔”是指每一行的列数取决于主题的数量,还是应该有一个主题列,其内部逗号被转义?
-
@tdelaney 主题应该用逗号分隔,并且应该在单列中
-
csv 应该是什么样子? (基于帖子中的xml)。请将此信息添加到帖子中。