【发布时间】:2021-05-16 16:22:43
【问题描述】:
我正在尝试使用来自 AWS EMR 的 Pyspark 来读取它驻留在 s3 中的 Excel 文件,为此我下载了 spark-excel jars spark-excel_2.11-0.12.4.jar 和 spark-excel_2.12- 0.13.5.jar 并放入 s3 bucket
scenario 1:
===========
df = spark.read.format("com.crealytics.spark.excel").option("useHeader", "true").option("inferschema", "true").load("s3://bucket/abc.xlsx")
spark-submit --jars s3://Bucket/spark-excel_2.11-0.12.4.jar test.py
Error:
Caused by: java.lang.NoClassDefFoundError: org/apache/commons/collections4/IteratorUtils
scenario2:
=========
df = spark.read.format("com.crealytics.spark.excel").option("header", "true").option("inferschema", "true").load("s3://bucket/abc.xlsx")
spark-submit --jars s3://Bucket/spark-excel_2.12-0.13.5.jar test.py
Error:
py4j.protocol.Py4JJavaError: An error occurred while calling o79.load.
: java.lang.NoSuchMethodError: scala.Product.$init$(Lscala/Product;)
有人可以帮我解决这个问题吗?感谢您的帮助!
【问题讨论】:
标签: python pandas apache-spark pyspark apache-spark-sql