【问题标题】:How to write large Pyspark DataFrame to DynamoDB如何将大型 Pyspark DataFrame 写入 DynamoDB
【发布时间】:2020-07-20 22:05:33
【问题描述】:

我有 pyspark 数据框,其中包含 3+ 百万条记录,有必要将其写入 Dynamo db。最好的方法是什么?

【问题讨论】:

标签: python amazon-web-services dataframe pyspark amazon-dynamodb


【解决方案1】:

如果你想使用 python 来做到这一点,那么你可以这样做:

  • 用足够数量的文件保存 spark df,即如果文件大小为 5 GB,则生成 50 个 100 mb 的文件。
  • 现在编写具有多处理功能的 Python 代码,其中您的进程池将等于可用 CPU 的数量。
  • 使用 dynamodb 的 boto3 batch_writer 写入文件并并行处理所有文件。

为此,您可以使用粘合 python shell 或创建自己的容器并在 fargate 上启动它。

【讨论】:

    猜你喜欢
    • 2019-05-14
    • 2019-09-22
    • 1970-01-01
    • 2022-11-06
    • 2018-05-23
    • 2019-10-02
    • 2019-01-16
    • 2020-05-20
    • 1970-01-01
    相关资源
    最近更新 更多