【发布时间】:2023-03-24 15:19:01
【问题描述】:
我一直在寻找将 Parquet 文件从 S3 加载(基本上是空的和恢复)到 DynamoDB 的选项。 Parquet 文件本身是通过在 EMR 集群上运行的 spark 作业创建的。这里有几件事要记住,
- 我无法使用 AWS 数据管道
- 文件将包含数百万行(比如 1000 万行),因此需要一个有效的解决方案。我相信 boto API(即使是批量写入)可能没有那么高效?
还有其他选择吗?
【问题讨论】:
标签: amazon-web-services amazon-s3 amazon-dynamodb amazon-emr parquet