【问题标题】:what is the method for SparkSession to read csv file stored in AWS s3?SparkSession 读取存储在 AWS s3 中的 csv 文件的方法是什么?
【发布时间】:2018-08-04 17:30:45
【问题描述】:
我想利用 Apache Spark 中的函数从我的 S3 存储桶中提取 CSV 内容。显然在DataFrameReader 的.csv() 方法中使用内容的url 作为参数不起作用(例如sparkSession.reader().csv(...))。看起来我可能必须先使用 Java SDK 来访问存储并进行一些解析以将数据转换为 Dataset 类型任何人有想法或我能阅读的任何参考资料?谢谢。
【问题讨论】:
标签:
java
csv
apache-spark
dataframe
amazon-s3
【解决方案1】:
你可以在 Scala 中使用这个函数
def readCsv(url: String)(implicit spark: SparkSession): DataFrame = {
spark.read.option("header", "true").csv(url)
}
url 应该是这样的 s3://your_backet/backet_with_csv/