【发布时间】:2020-03-13 19:03:04
【问题描述】:
我正在处理将 csv 文件从 s3 存储桶复制到 redshift 的任务。我找到了多种方法来做到这一点,但我不确定哪一种是最好的方法。这是场景:
会定期将多个大小约为 500 MB - 1 GB 的 CSV 文件添加到我的 s3 存储桶中。数据可以包含重复项。任务是将数据复制到 redshift 表中,同时确保 redshift 中不存在重复数据。
以下是我找到的可以使用的方法:
创建一个 AWS Lambda 函数,只要将文件添加到 s3 存储桶,就会触发该函数。
使用 AWS Kinesis
使用 AWS Glue
我了解 Lambda 不应用于耗时超过 5 分钟的作业。那么我应该使用它还是直接取消这个选项?
Kinesis 可以处理大量数据,但它是最好的方法吗?
我不熟悉 Glue 和 Kinesis。但我读到 Glue 可能会很慢。
如果有人能指出我正确的方向,那将非常有帮助。
【问题讨论】:
标签: amazon-web-services amazon-s3 aws-lambda aws-glue amazon-kinesis