如何将 excel (.xlsx) 文件读入 pyspark 数据框答案

【问题标题】：How to read excel (.xlsx) file into a pyspark dataframe如何将 excel (.xlsx) 文件读入 pyspark 数据框
【发布时间】：2021-12-08 16:31:40
【问题描述】：

我在数据湖中有一个 excel 文件 (.xlsx) 文件。我需要将该文件读入 pyspark 数据框。我不想使用 pandas 库。

我已经在我的 databricks 集群中安装了 crealytics 库，并尝试使用以下代码：

dbutils.fs.cp('/path/to/excel/file','/FileStore/tables/',True)

path='/dbfs/FileStore/tables//myfile1.xlsx'

excel_df=spark.read.format("com.crealytics.spark.excel").option("header","true").option("inferSchema","true").load("/FileStore/tables/myfile1.xlsx")

我收到以下错误：

java.lang.NoSuchMethodError: org.apache.commons.io.IOUtils.byteArray(I)[B

我在这里遗漏了什么吗，或者可以尝试除 Pandas 之外的任何其他方法。我还需要阅读 excel 文件中的多张纸。请提出建议。

【问题讨论】：

路径有“//”
stackoverflow.com/questions/44196741/…

标签： python excel apache-spark pyspark

【解决方案1】：

我遇到了同样的错误。发现问题出在软件包版本上。我用 Scala 2.12 安装了新版本 0.13.8，它正在工作。

path="/mnt/replacemountpointname/path/filename.xlsx"
df = spark.read.format("com.crealytics.spark.excel").options(header='True', inferSchema='True').load(path)

参考链接：https://www.youtube.com/watch?v=ib8Zch_4744

【讨论】：