【发布时间】:2022-01-13 23:40:30
【问题描述】:
假设 s3 文件夹中的三个文件,通过 spark.read.csv(s3:bucketname/folder1/*.csv) 读取是否按顺序读取文件? 如果没有,有没有办法在读取整个文件夹时对文件进行排序,同时在内部不同时间收到多个文件。
| File name | s3 file uploaded/Last modified time |
|---|---|
| s3:bucketname/folder1/file1.csv | 01:00:00 |
| s3:bucketname/folder1/file2.csv | 01:10:00 |
| s3:bucketname/folder1/file3.csv | 01:20:00 |
【问题讨论】:
-
接收时间如何指定?它是您数据中的一列,还是类似于文件中的时间戳?
-
这是s3文件上传时间/最后修改时间。
标签: apache-spark amazon-s3 pyspark apache-spark-sql