【发布时间】:2020-06-18 18:19:04
【问题描述】:
我是 Java 和 spark sql 的新手。我想知道是否有办法在我的 Java 代码中读取在 S3 中保存为 JSON 的 Spark Parquet 格式类型的文件?
【问题讨论】:
我是 Java 和 spark sql 的新手。我想知道是否有办法在我的 Java 代码中读取在 S3 中保存为 JSON 的 Spark Parquet 格式类型的文件?
【问题讨论】:
val spark = SparkSession.builder()
.master("local[1]")
.getOrCreate()
spark.read().json("s3a://your/json/path.json")
spark.write().parquet("parquet/file/path.parquet")
【讨论】:
Exception in thread "main" java.lang.RuntimeException: java.lang.ClassNotFoundException: Class org.apache.hadoop.fs.s3native.NativeS3FileSystem not found 我创建了一个这样的 sparkSession:SparkSession spark = SparkSession .builder() .appName("AppName") .config("spark.hadoop.fs.s3n.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem") .master("local[1]") .getOrCreate() 你能告诉我我错过了什么吗?
NativeS3FileSystem jsue 默认 S3 实现并使用 s3a:// 从 spark 访问 s3 文件