【发布时间】:2020-03-02 07:51:11
【问题描述】:
我想提取 XML 文件的注释部分。我想提取的信息位于 Tag 之间,然后在 Text 标记中,即“EXAMPLE”。
XML 文件的结构如下所示。
<Boxes>
<Box Id="3" ZIndex="13">
<Shape>Rectangle</Shape>
<Brush Id="0" />
<Pen>
<Color>#FF000000</Color>
</Pen>
<Tag><?xml version="1.0"?>
<PFDComment xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:xsd="http://www.w3.org/2001/XMLSchema">
<Text>**EXAMPLE** </Text>
</PFDComment></Tag>
</Box>
</Boxes>
我在下面尝试了一些东西,但无法获得我想要的信息。
def read_cooments(xml):
tree = lxml.etree.parse(xml)
Comments= {}
for comment in tree.xpath("//Boxes/Box"):
#
get_id = comment.attrib['Id']
Comments[get_id] = []
for group in comment.xpath(".//Tag"):
#
Comments[get_id].append(group.text)
df_name1 = pd.DataFrame(dict([(k,pd.Series(v)) for k,v in Comments.items()]))
任何人都可以帮助从上面显示的 XML 文件中提取 cmets 吗?任何帮助表示赞赏!
【问题讨论】:
-
有没有办法提取它?
标签: python xml pandas information-extraction