问：AWS DynamoDB 到 S3 [管道]

【问题标题】：Q: AWS DynamoDB to S3 [pipeline]问：AWS DynamoDB 到 S3 [管道]
【发布时间】：2020-06-19 18:46:04
【问题描述】：

我希望实现的目标是生成表格文件，以便之后可以检查数据（每月计算）。到目前为止，我所做的是使用管道选项从 DynamoDB 到 S3 存储桶创建备份，但是：

花费的时间太长，管道已运行超过 24 小时，因为我要导出的表是 7 GB 的 DynamoDB 大小（已压缩，完成备份需要更多时间）；李>
我需要每月进行一次，这意味着我只需要每月第一天和最后一天之间的数据，而 PIPELINE 可以创建备份从特定时间线的表格中导出；
Pipeline 导出的文件每个大约 10 MB，这意味着数百个文件，而不是几个（例如 100 MB 文件或 1 GB 文件）。

在这种情况下，我很感兴趣，如果有一种不同的方法可以对当前信息进行完整备份，然后每月对执行的更改（例如每月增量）进行更改，而不是数百万10 MB 文件。

感谢任何 cmets、澄清、代码示例、更正。

感谢您的宝贵时间。

【问题讨论】：

从我阅读的内容来看，我认为没有黄金解决方案。您可以尝试破解一些自己的备份工具，或寻找一些第三方的。

标签： database amazon-web-services amazon-s3 amazon-dynamodb backup

【解决方案1】：

基本上，您有两个选择：

通过 DynamoDB Steams 实现您自己的逻辑并通过以下方式处理您的数据你自己的逻辑
在 AWS Glue 上使用组合进行 ETL 处理，并且，可能，AWS Athena 从 S3 查询您的数据。小心使用 Apache Parquet 格式可提高查询性能并缓存您的其他地方的结果

【讨论】：

在这种情况下，您能否分享更多关于您提到的 DynamoDB Streams 的信息，因为它需要一些简单的东西，并且据我所见，它会在此时传递数据更新碰巧 lambda，这意味着会有一千个文件。目标是简单地做到这一点，以便当表“LetsDance”（例如）中的信息在每月 1-30 之间发生更新时，它不会将其导出到 S3，直到该月的最后一天在其各自的文件夹中 [自动创建数据库名称/月份的文件夹]?

猜你喜欢

1970-01-01
1970-01-01
1970-01-01
1970-01-01
2020-08-20
1970-01-01
1970-01-01
1970-01-01
1970-01-01

相关资源

下载 2021-06-24
下载 2023-02-07
下载 2023-03-25
下载 2023-01-01
下载 2022-12-21

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode