【发布时间】:2019-01-23 13:00:43
【问题描述】:
我正在使用 AWS Glue ETL 将数据从 Amazon RDS(Aurora 数据库)加载到 Redshift。但我不知道如何进行增量加载(upsert)?有没有办法在从源数据库读取数据时创建过滤器/参数以仅将新的/更改的记录加载到 Redshift?
我看到 S3 源可与 AWS 书签一起使用,但对于关系数据库,有什么选择。非常感谢您的建议!谢谢!
【问题讨论】:
标签: aws-glue
我正在使用 AWS Glue ETL 将数据从 Amazon RDS(Aurora 数据库)加载到 Redshift。但我不知道如何进行增量加载(upsert)?有没有办法在从源数据库读取数据时创建过滤器/参数以仅将新的/更改的记录加载到 Redshift?
我看到 S3 源可与 AWS 书签一起使用,但对于关系数据库,有什么选择。非常感谢您的建议!谢谢!
【问题讨论】:
标签: aws-glue
我已将 mysql 连接器用作上传到 S3 的外部 zip 文件,并在我的 AWS Glue python 中使用以嵌入 Mysql 查询并运行 INSERT INTO 表...在 DUPLICATE KEY 上对 RDS Aurora 进行 upsert 操作。如果您使用的是 Mysql,您可以按照相同的方式根据 where 子句过滤结果集。请参考此链接:
Error while using INSERT INTO table ON DUPLICATE KEY, using a for loop array
【讨论】: