SparkSession 读取存储在 AWS s3 中的 csv 文件的方法是什么？答案

【问题标题】：what is the method for SparkSession to read csv file stored in AWS s3?SparkSession 读取存储在 AWS s3 中的 csv 文件的方法是什么？
【发布时间】：2018-08-04 17:30:45
【问题描述】：

我想利用 Apache Spark 中的函数从我的 S3 存储桶中提取 CSV 内容。显然在DataFrameReader 的.csv() 方法中使用内容的url 作为参数不起作用（例如sparkSession.reader().csv(...)）。看起来我可能必须先使用 Java SDK 来访问存储并进行一些解析以将数据转换为 Dataset 类型任何人有想法或我能阅读的任何参考资料？谢谢。

【问题讨论】：

标签： java csv apache-spark dataframe amazon-s3

【解决方案1】：

你可以在 Scala 中使用这个函数

def readCsv(url: String)(implicit spark: SparkSession): DataFrame = {
    spark.read.option("header", "true").csv(url)
  }

url 应该是这样的 s3://your_backet/backet_with_csv/

【讨论】：