【问题标题】:How is a spark application accessing a file/directory in Amazon S3 bucket?Spark 应用程序如何访问 Amazon S3 存储桶中的文件/目录?
【发布时间】:2020-04-08 04:18:21
【问题描述】:

假设我想在 S3 存储桶中加载一个 .csv 文件作为数据帧

我知道有密码

spark.read.format('csv').load("s3://path/file.csv")

但我想知道幕后发生了什么?或者究竟是什么导致了这种情况发生?我在一次采访中被问到这个问题,无法回答。

谢谢

【问题讨论】:

    标签: apache-spark amazon-s3 amazon-ec2 pyspark amazon-emr


    【解决方案1】:

    不知道面试官的期望是什么,但这是我的答案。

    它将创建一个带有BaseRelation 实现HadoopFsRelation 的DataFrame,因为您正在尝试访问一个文件(您将使用JDBCRelation 的数据库)。

    HadoopFsRelation 将使用 CsvFileFormat 最终使用 CSVDataSource 这将使您能够读取 CSV 文件以处理其数据。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2014-12-03
      • 2011-12-07
      • 2016-03-12
      • 1970-01-01
      相关资源
      最近更新 更多