【发布时间】:2020-03-13 10:09:27
【问题描述】:
我可以将 s3 buket 中的 csv 文件 myexample.csv 读取到 spark 数据帧中。
df = spark.read.csv(s3n://mybucket/myexample.csv)
但是我如何才能读取存储桶中的所有 csv 文件,例如 myexample1.csv, myexample2.csv, myexample.csv 它们在同一个存储桶 s3://mybucket 到一个数据帧中。
df = spark.read.csv(s3n://mybucket/) ..这行得通吗?
【问题讨论】:
-
在 StackOverflow 上发布之前您没有尝试过吗?
-
您应该尝试使用
s3a而不是s3n。 -
仅当所有内部目录具有相同的分区时。 Spark 无法读取不兼容的文件(按目录)。所有文件必须处于同一级别。例如。 s3a://bucket/foo=X/bar=Y/meow_i.csv
标签: dataframe apache-spark amazon-s3 pyspark