【问题标题】:what is the method for SparkSession to read csv file stored in AWS s3?SparkSession 读取存储在 AWS s3 中的 csv 文件的方法是什么?
【发布时间】:2018-08-04 17:30:45
【问题描述】:

我想利用 Apache Spark 中的函数从我的 S3 存储桶中提取 CSV 内容。显然在DataFrameReader.csv() 方法中使用内容的url 作为参数不起作用(例如sparkSession.reader().csv(...))。看起来我可能必须先使用 Java SDK 来访问存储并进行一些解析以将数据转换为 Dataset 类型任何人有想法或我能阅读的任何参考资料?谢谢。

【问题讨论】:

    标签: java csv apache-spark dataframe amazon-s3


    【解决方案1】:

    你可以在 Scala 中使用这个函数

    def readCsv(url: String)(implicit spark: SparkSession): DataFrame = {
        spark.read.option("header", "true").csv(url)
      }
    

    url 应该是这样的 s3://your_backet/backet_with_csv/

    【讨论】:

      猜你喜欢
      • 2016-07-28
      • 2019-11-12
      • 1970-01-01
      • 2021-11-11
      • 1970-01-01
      • 2019-04-30
      • 1970-01-01
      • 1970-01-01
      • 2018-07-23
      相关资源
      最近更新 更多