【问题标题】:Spark XML - Use XMLs from ExcelSpark XML - 使用 Excel 中的 XML
【发布时间】:2020-06-15 12:41:49
【问题描述】:

我有一个 Excel 表,其中一列有 XML(每一行都是不同的 xml)。我正在尝试通过 df = spark.read.format('xml').options(rowTag = 'book').load(___) 使用 Pyspark 和 spark-xml 来解析这些。

load 在您指定 xml 文件时工作正常,但是否可以在 Excel 工作表中读取并在这些 xml 中循环进行解析,而无需将每个文件转换为自己的 xml 文件?

【问题讨论】:

  • 谢谢。这把它变成了一个df。我认为这在 spark-xml 中不起作用?
  • 读取为数据框,然后为每一列解析 xml.. 或者如果您的文件不大于 2 gb,则使用普通的 xml 解析器和 pandas,因为这样会更快
  • 我一直在使用 lxml/ElementTree,但 spark-xml 的“load(__)”似乎只有在通过 .xml 文件时才有效。

标签: python excel xml pyspark


【解决方案1】:

您需要先将 Excel 文件作为 Spark DataFrame 读取。然后,您可以使用 from_xml 函数进一步解析包含 XML 的 String 列。这给出了一个新列,其中包含来自 XML 列的解析数据。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-08-05
    相关资源
    最近更新 更多