【问题标题】:Read file parquet file from s3 in java从java中的s3读取文件parquet文件
【发布时间】:2020-06-18 18:19:04
【问题描述】:

我是 Java 和 spark sql 的新手。我想知道是否有办法在我的 Java 代码中读取在 S3 中保存为 JSON 的 Spark Parquet 格式类型的文件?

【问题讨论】:

    标签: java amazon-s3 parquet


    【解决方案1】:
    
    val spark = SparkSession.builder()
          .master("local[1]")
          .getOrCreate()
    
    spark.read().json("s3a://your/json/path.json")
    
    spark.write().parquet("parquet/file/path.parquet")
    
    

    【讨论】:

    • 感谢您的方法。我遵循了这种方法,但我得到了以下错误Exception in thread "main" java.lang.RuntimeException: java.lang.ClassNotFoundException: Class org.apache.hadoop.fs.s3native.NativeS3FileSystem not found 我创建了一个这样的 sparkSession:SparkSession spark = SparkSession .builder() .appName("AppName") .config("spark.hadoop.fs.s3n.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem") .master("local[1]") .getOrCreate() 你能告诉我我错过了什么吗?
    • 不要使用 NativeS3FileSystem jsue 默认 S3 实现并使用 s3a:// 从 spark 访问 s3 文件
    猜你喜欢
    • 1970-01-01
    • 2022-01-08
    • 2018-04-11
    • 2020-10-28
    • 1970-01-01
    • 2019-02-04
    • 2020-05-13
    • 2019-04-12
    • 1970-01-01
    相关资源
    最近更新 更多