Spark 应用程序如何访问 Amazon S3 存储桶中的文件/目录？

【问题标题】：How is a spark application accessing a file/directory in Amazon S3 bucket?Spark 应用程序如何访问 Amazon S3 存储桶中的文件/目录？
【发布时间】：2020-04-08 04:18:21
【问题描述】：

假设我想在 S3 存储桶中加载一个 .csv 文件作为数据帧

我知道有密码

spark.read.format('csv').load("s3://path/file.csv")

但我想知道幕后发生了什么？或者究竟是什么导致了这种情况发生？我在一次采访中被问到这个问题，无法回答。

谢谢

【问题讨论】：

标签： apache-spark amazon-s3 amazon-ec2 pyspark amazon-emr

【解决方案1】：

不知道面试官的期望是什么，但这是我的答案。

它将创建一个带有BaseRelation 实现HadoopFsRelation 的DataFrame，因为您正在尝试访问一个文件（您将使用JDBCRelation 的数据库）。

HadoopFsRelation 将使用 CsvFileFormat 最终使用 CSVDataSource 这将使您能够读取 CSV 文件以处理其数据。

【讨论】：