【发布时间】:2021-11-27 07:37:52
【问题描述】:
我有一个像这样的 s3 文件夹结构:
bucketname/20211127123456/.parquet files
bucketname/20211127456789/.parquet files
bucketname/20211126123455/.parquet files
bucketname/20211126746352/.parquet files
bucketname/20211124123455/.parquet files
bucketname/20211124746352/.parquet files
基本上每天都有两个文件夹,里面有多个我想阅读的镶木地板文件。
假设我想从27th and 26th Nov 的文件夹中读取所有文件。
现在我有 boto3 函数,它给了我一个 python 列表,其中包括所有 parquet 文件完整的 s3 路径,在 s3 路径中有 20211126 和 20211127,并且我传递给 spark.read 的列表。有没有更好的方法来实现这一点?
【问题讨论】: