【发布时间】:2021-10-20 10:20:08
【问题描述】:
我们将胶水用于计算目的。数据流是这样发生的landing->raw->stage->curated->Redshift。
但是,当数据每天正确流动时 -> 数据正好翻了一番。
例如:
- 8 月 1 日:我有 100 条记录
- 8 月 2 日:我有 20 条记录
在 Redshift 中,我希望在 8 月 2 日结束时看到 120 条记录。而不是那样,它会获得 220 条记录。请向我推荐一种避免这种情况的方法。
希望根据原始和阶段的运行日期保留分区。
【问题讨论】:
标签: sql amazon-web-services aws-lambda etl aws-glue