【发布时间】:2020-06-15 12:41:49
【问题描述】:
我有一个 Excel 表,其中一列有 XML(每一行都是不同的 xml)。我正在尝试通过 df = spark.read.format('xml').options(rowTag = 'book').load(___) 使用 Pyspark 和 spark-xml 来解析这些。
load 在您指定 xml 文件时工作正常,但是否可以在 Excel 工作表中读取并在这些 xml 中循环进行解析,而无需将每个文件转换为自己的 xml 文件?
【问题讨论】:
-
谢谢。这把它变成了一个df。我认为这在 spark-xml 中不起作用?
-
读取为数据框,然后为每一列解析 xml.. 或者如果您的文件不大于 2 gb,则使用普通的 xml 解析器和 pandas,因为这样会更快
-
我一直在使用 lxml/ElementTree,但 spark-xml 的“load(__)”似乎只有在通过 .xml 文件时才有效。