【发布时间】:2019-12-26 08:20:34
【问题描述】:
我目前正在使用 AWS S3 作为许多 json 文件的存储(200 万个并且还在增加)。 我想将所有这些文件放在一个数据库中,在 Postgres RDS 中。
我目前正在使用解析文件的 AWS Lambda,它比在本地运行慢得多。此外,使用 lambda 在 Python 中运行脚本和安装外部模块的工作非常糟糕。
是否有一种更快、更有效的方式来处理 S3 文件、解析它们并将它们放入 Postgres 而无需下载它们?
它需要在每个新文件上运行(这就是我选择 lambda 的原因),并且它需要分成几个表,所以它不仅仅是按原样放置文件(脚本已经获取文件并将其解析为正确的表)。
【问题讨论】:
-
问:您的 lambda 函数在本地机器或 AWS EC2 上为现有的 S3 json 运行?
-
我不确定我是否理解了这个问题,lambda 远程运行在 S3 上
-
您是否有理由不想将这些作为两个单独的操作处理?一个是在一个批量本地操作中从现有的 s3 解决方案迁移到 RDS,另一个是使用 lambda 捕获所有新文件?
-
现有s3转RDS,可以使用AWS EC2进行批量操作。
-
我想把每个文件下载到一个 ec2 上,你认为它会运行得更快吗?
标签: python postgresql amazon-web-services amazon-s3 amazon-rds