Spark XML - 使用 Excel 中的 XML答案

【问题标题】：Spark XML - Use XMLs from ExcelSpark XML - 使用 Excel 中的 XML
【发布时间】：2020-06-15 12:41:49
【问题描述】：

我有一个 Excel 表，其中一列有 XML（每一行都是不同的 xml）。我正在尝试通过 df = spark.read.format('xml').options(rowTag = 'book').load(___) 使用 Pyspark 和 spark-xml 来解析这些。

load 在您指定 xml 文件时工作正常，但是否可以在 Excel 工作表中读取并在这些 xml 中循环进行解析，而无需将每个文件转换为自己的 xml 文件？

【问题讨论】：

【解决方案1】：

您需要先将 Excel 文件作为 Spark DataFrame 读取。然后，您可以使用 from_xml 函数进一步解析包含 XML 的 String 列。这给出了一个新列，其中包含来自 XML 列的解析数据。

【讨论】：