【发布时间】:2019-12-03 13:08:08
【问题描述】:
我使用 pyspark 读取 amazon s3 上 s3 存储桶上的对象。如果我读取了许多 json 文件,然后将其保存为镶木地板文件,则我的存储桶是由
spark.read.json('s3://my-bucket/directory1/')
spark.write.parquet('s3://bucket-with-parquet/', mode='append')
我每天都会在s3://my-bucket/directory1/ 上上传一些新文件,我想将它们更新到s3://bucket-with-parquet/ 有没有办法确保我不会两次更新数据。我的想法是用 spark 标记我读取的每个文件(不知道该怎么做)。然后我可以使用这些标签来告诉 spark 不要在之后再次读取文件(也不知道该怎么做)。如果 AWS 专家可以帮助我,我将不胜感激。
【问题讨论】:
标签: amazon-web-services amazon-s3 pyspark parquet