【发布时间】:2019-12-29 21:12:23
【问题描述】:
我正在使用 AWS Glue 作业以 parquet 格式备份 s3 中的 dynamodb 表,以便能够在 Athena 中使用它。
如果我想使用这些 parquet 格式的 s3 文件来恢复 dynamodb 中的表,这就是我的想法 - 读取每个 parquet 文件并将其转换为 json,然后将 json 格式的数据插入 dynamodb (在下面的行中使用 pyspark)
# set sql context
parquetFile = sqlContext.read.parquet(input_file)
parquetFile.write.json(output_path)
使用 -https://github.com/Alonreznik/dynamodb-json 将普通 json 转换为 dynamo 预期的 json
这种方法听起来正确吗?这种方法还有其他替代方法吗?
【问题讨论】:
-
您可以使用 emr-dynamodb-connector 从 spark 直接写入 dynamodb。这样就不用转成json了。
-
谢谢,这有帮助,我可以使用 hive 导入发电机。