【发布时间】:2023-03-20 06:44:02
【问题描述】:
我们正在使用 aws glue etl 作业将 s3 Json 或 CSV 转换为 parquet 格式,并将结果保存在 nnew s3 中。 该作业定期运行。 我们正面临一个问题,例如,如果我们每次运行时都有 10 个 json 文件,它会创建新的 10parquet 文件,因此它变成 10 20 30 40 ....等等,我们只想看到 10 个文件。 有什么方法可以覆盖现有的镶木地板文件。我们只使用胶水生成的 Python 脚本。 我们可以只转换更新的文件,还是可以将所有文件都过期?
【问题讨论】: