使用数据管道复制数据答案

【问题标题】：Duplication of data using data pipeline使用数据管道复制数据
【发布时间】：2019-12-13 09:30:36
【问题描述】：

我正在尝试使用 AWS 数据管道将 dynamoDb 数据备份到 S3 中，并在数据管道设置中将其安排为每 15 分钟一次。我使用的模板是默认提供的，即“将 DynamoDB 表导出到 S3”。

问题是，我们可以通过一个例子来理解。

Table 的初始状态是 -> 存在 3 行第一次保存到 S3 中，我得到了所有这 3 行。

在第二次保存到 S3 之前，我在表中添加了一行。

现在表的状态是 -> 存在 4 行。第二次保存到 S3 中，我现在得到 4 行，但我只想保存新添加的行。

我怎样才能实现这个功能？

还有一件事，有什么方法可以删除最后添加到 S3 中的备份并保存新的备份？

【问题讨论】：

【解决方案1】：

Dynamodb 自己将数据备份到 s3，用于创建时间点屏幕截图。

但如果您仍需要创建与 dynamodb 完全同步且延迟可接受的自定义备份，您可以have a lambda function reading from dynamodb stream and writing to s3。它将确保您只编写实际发生变化的项目。

【讨论】：