在 Jupyter Notebook 中找不到 PySpark 的 org.apache.hadoop.fs.s3native.NativeS3FileSystem

【问题标题】：org.apache.hadoop.fs.s3native.NativeS3FileSystem not found with PySpark in Jupyter Notebook在 Jupyter Notebook 中找不到 PySpark 的 org.apache.hadoop.fs.s3native.NativeS3FileSystem
【发布时间】：2019-08-28 20:26:39
【问题描述】：

我想在我的笔记本电脑上使用 PySpark 从 s3 读取数据。但我收到以下错误消息。

spark._jsc.hadoopConfiguration().set("fs.s3n.awsAccessKeyId", "...")
spark._jsc.hadoopConfiguration().set("fs.s3n.awsSecretAccessKey", "...")
my_df = spark.read.csv("s3n://bucket-name/file_name.csv").count()

Py4JJavaError：调用 o498.csv 时出错。 : java.lang.RuntimeException: java.lang.ClassNotFoundException: 类 org.apache.hadoop.fs.s3native.NativeS3FileSystem 找不到

【问题讨论】：

你能解决这个问题吗？目前让我发疯

标签： amazon-s3 pyspark jupyter-notebook

【解决方案1】：

我遇到了类似的问题。我使用了以下

Spark: 2.4.4
Hadoop: 2.7.3
Haddop-AWS: hadoop-aws-2.7.3.jar
AWS-JAVA-SDK: aws-java-sdk-1.7.3.jar
Scala: 2.11

为我工作并使用s3a://bucket-name/

（注意：对于 PySPark，我使用了aws-java-sdk-1.7.4.jar）因为我无法使用

df.write.csv(path=path, mode="overwrite", compression="None")

用途：

my_df = spark.read.csv("s3a://bucket-name/file_name.csv").count()

【讨论】：

你“使用了以下”是什么意思？你是如何确保 pyspark 指向那些 JARS 的？