【发布时间】:2016-06-27 15:29:50
【问题描述】:
有没有办法将我的spark 数据框的每一行写为dynamoDB 表中的新项目? (在pySpark)
我将此代码与boto3 库一起使用,但我想知道是否有另一种方法,避免pandas 和for loop 步骤:
sparkDF_dict = sparkDF.toPandas().to_dict('records')
for item in sparkDF_dict :
table.put_item(Item = item)
【问题讨论】:
-
这个问题有解决方案吗?关于这些东西的文档很少。似乎应该可以将 EMR 输出发送到 DynamoDB。
-
我有完全相同的要求,但需要写入超过 500 万行。对此我们是否有更强大和并行的解决方案?
-
这也是我正在遵循的方法。但是,大多数时候我在转换过程中收到数百万行的内存错误
toPandas。我将 DF 拆分为多个较小的块,但在这种情况下,这项工作需要花费很多时间。也在寻找另一种方式。
标签: apache-spark amazon-dynamodb pyspark