【发布时间】:2020-04-08 04:18:21
【问题描述】:
假设我想在 S3 存储桶中加载一个 .csv 文件作为数据帧
我知道有密码
spark.read.format('csv').load("s3://path/file.csv")
但我想知道幕后发生了什么?或者究竟是什么导致了这种情况发生?我在一次采访中被问到这个问题,无法回答。
谢谢
【问题讨论】:
标签: apache-spark amazon-s3 amazon-ec2 pyspark amazon-emr
假设我想在 S3 存储桶中加载一个 .csv 文件作为数据帧
我知道有密码
spark.read.format('csv').load("s3://path/file.csv")
但我想知道幕后发生了什么?或者究竟是什么导致了这种情况发生?我在一次采访中被问到这个问题,无法回答。
谢谢
【问题讨论】:
标签: apache-spark amazon-s3 amazon-ec2 pyspark amazon-emr
不知道面试官的期望是什么,但这是我的答案。
它将创建一个带有BaseRelation 实现HadoopFsRelation 的DataFrame,因为您正在尝试访问一个文件(您将使用JDBCRelation 的数据库)。
HadoopFsRelation 将使用 CsvFileFormat 最终使用 CSVDataSource 这将使您能够读取 CSV 文件以处理其数据。
【讨论】: