【问题标题】:Prevent files from being processed multiple times in AWS Glue防止文件在 AWS Glue 中被多次处理
【发布时间】:2021-10-20 10:20:08
【问题描述】:

我们将胶水用于计算目的。数据流是这样发生的landing->raw->stage->curated->Redshift

但是,当数据每天正确流动时 -> 数据正好翻了一番。

例如:

  • 8 月 1 日:我有 100 条记录
  • 8 月 2 日:我有 20 条记录

在 Redshift 中,我希望在 8 月 2 日结束时看到 120 条记录。而不是那样,它会获得 220 条记录。请向我推荐一种避免这种情况的方法。

希望根据原始和阶段的运行日期保留分区。

【问题讨论】:

    标签: sql amazon-web-services aws-lambda etl aws-glue


    【解决方案1】:

    您似乎想要跟踪已处理的文件。您可以使用 Glue 的job bookmarking 功能来防止这种情况发生。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2017-01-10
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2022-07-16
      • 1970-01-01
      • 2019-05-21
      • 1970-01-01
      相关资源
      最近更新 更多