【问题标题】:How to read excel (.xlsx) file into a pyspark dataframe如何将 excel (.xlsx) 文件读入 pyspark 数据框
【发布时间】:2021-12-08 16:31:40
【问题描述】:

我在数据湖中有一个 excel 文件 (.xlsx) 文件。我需要将该文件读入 pyspark 数据框。 我不想使用 pandas 库。

我已经在我的 databricks 集群中安装了 crealytics 库,并尝试使用以下代码:

dbutils.fs.cp('/path/to/excel/file','/FileStore/tables/',True)

path='/dbfs/FileStore/tables//myfile1.xlsx'

excel_df=spark.read.format("com.crealytics.spark.excel").option("header","true").option("inferSchema","true").load("/FileStore/tables/myfile1.xlsx")

我收到以下错误:

java.lang.NoSuchMethodError: org.apache.commons.io.IOUtils.byteArray(I)[B

我在这里遗漏了什么吗,或者可以尝试除 Pandas 之外的任何其他方法。我还需要阅读 excel 文件中的多张纸。请提出建议。

【问题讨论】:

标签: python excel apache-spark pyspark


【解决方案1】:

我遇到了同样的错误。发现问题出在软件包版本上。我用 Scala 2.12 安装了新版本 0.13.8,它正在工作。

path="/mnt/replacemountpointname/path/filename.xlsx"
df = spark.read.format("com.crealytics.spark.excel").options(header='True', inferSchema='True').load(path)

参考链接:https://www.youtube.com/watch?v=ib8Zch_4744

【讨论】:

    猜你喜欢
    • 2019-11-13
    • 2021-08-24
    • 2021-10-07
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2023-03-15
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多