【问题标题】:org.apache.hadoop.fs.s3native.NativeS3FileSystem not found with PySpark in Jupyter Notebook在 Jupyter Notebook 中找不到 PySpark 的 org.apache.hadoop.fs.s3native.NativeS3FileSystem
【发布时间】:2019-08-28 20:26:39
【问题描述】:

我想在我的笔记本电脑上使用 PySpark 从 s3 读取数据。但我收到以下错误消息。

spark._jsc.hadoopConfiguration().set("fs.s3n.awsAccessKeyId", "...")
spark._jsc.hadoopConfiguration().set("fs.s3n.awsSecretAccessKey", "...")
my_df = spark.read.csv("s3n://bucket-name/file_name.csv").count()

Py4JJavaError:调用 o498.csv 时出错。 : java.lang.RuntimeException: java.lang.ClassNotFoundException: 类 org.apache.hadoop.fs.s3native.NativeS3FileSystem 找不到

【问题讨论】:

  • 你能解决这个问题吗?目前让我发疯

标签: amazon-s3 pyspark jupyter-notebook


【解决方案1】:

我遇到了类似的问题。我使用了以下

Spark: 2.4.4
Hadoop: 2.7.3
Haddop-AWS: hadoop-aws-2.7.3.jar
AWS-JAVA-SDK: aws-java-sdk-1.7.3.jar
Scala: 2.11

为我工作并使用s3a://bucket-name/

注意:对于 PySPark,我使用了aws-java-sdk-1.7.4.jar)因为我无法使用

df.write.csv(path=path, mode="overwrite", compression="None")

用途:

my_df = spark.read.csv("s3a://bucket-name/file_name.csv").count()

【讨论】:

  • 你“使用了以下”是什么意思?你是如何确保 pyspark 指向那些 JARS 的?
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-08-14
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多