将镶木地板文件从 S3 加载到 DynamoDB答案

【问题标题】：Loading parquet file from S3 to DynamoDB将镶木地板文件从 S3 加载到 DynamoDB
【发布时间】：2023-03-24 15:19:01
【问题描述】：

我一直在寻找将 Parquet 文件从 S3 加载（基本上是空的和恢复）到 DynamoDB 的选项。 Parquet 文件本身是通过在 EMR 集群上运行的 spark 作业创建的。这里有几件事要记住，

还有其他选择吗？

【问题讨论】：

【解决方案1】：

您能否仅参考 Spark RDD 中的 Parquet 文件并让工作人员将条目放入 dynamoDB？忽略在每个工作人员中缓存 DynamoDB 客户端以便在不同行中重用的挑战，它需要一些 scala 来获取一行，为 dynamo 和 PUT 构建一个条目就足够了。

顺便说一句：在这里按需使用 DynamoDB，因为它可以很好地处理峰值负载，而您不必承诺某些 SLA。

【讨论】：

【解决方案2】：

看看下面的答案： https://stackoverflow.com/a/59519234/4253760

解释过程：

我的个人建议：无论你做什么，都不要使用 RDD。即使在 Scala 中，RDD 接口也比任何语言的 Dataframe API 慢 2-3 倍。只要您不使用 UDF，Dataframe API 的性能就与编程语言无关。

【讨论】：