【发布时间】:2021-10-29 11:00:07
【问题描述】:
在我们需要每天增加负载的项目中工作,我们将 Glue 用于 ETL 目的。我们正在使用 Glue 获得重复或数据翻倍。
pipeline flow: Ingestion Zone, Raw Zone, Curated zone, consumption zone.
History: 1000 records. Below dates on updates and inserts
1 月 11 日运行结束,I would like to see my total records of 1100 records as I'm upserting the data in rawtocurated zone。但是,我在精选区域中获得了翻倍的记录。数据按运行日期进行分区。比如 2020/01/10/data.csv 和 2020/01/11/data.csv
我应该进行哪些更改以避免在消费区中仅看到增量记录(或增量记录)?
【问题讨论】:
-
您在使用工作书签功能吗?
-
是的。它不适用于用例。
-
您使用 Glue 元数据目录吗?
-
是的。雅典娜表。
标签: amazon-web-services pyspark apache-spark-sql etl aws-glue