【发布时间】:2021-12-08 16:31:40
【问题描述】:
我在数据湖中有一个 excel 文件 (.xlsx) 文件。我需要将该文件读入 pyspark 数据框。 我不想使用 pandas 库。
我已经在我的 databricks 集群中安装了 crealytics 库,并尝试使用以下代码:
dbutils.fs.cp('/path/to/excel/file','/FileStore/tables/',True)
path='/dbfs/FileStore/tables//myfile1.xlsx'
excel_df=spark.read.format("com.crealytics.spark.excel").option("header","true").option("inferSchema","true").load("/FileStore/tables/myfile1.xlsx")
我收到以下错误:
java.lang.NoSuchMethodError: org.apache.commons.io.IOUtils.byteArray(I)[B
我在这里遗漏了什么吗,或者可以尝试除 Pandas 之外的任何其他方法。我还需要阅读 excel 文件中的多张纸。请提出建议。
【问题讨论】:
标签: python excel apache-spark pyspark