【问题标题】:Working with s3 files into Postgres effciently高效地将 s3 文件处理到 Postgres
【发布时间】:2019-12-26 08:20:34
【问题描述】:

我目前正在使用 AWS S3 作为许多 json 文件的存储(200 万个并且还在增加)。 我想将所有这些文件放在一个数据库中,在 Postgres RDS 中。

我目前正在使用解析文件的 AWS Lambda,它比在本地运行慢得多。此外,使用 lambda 在 Python 中运行脚本和安装外部模块的工作非常糟糕。

是否有一种更快、更有效的方式来处理 S3 文件、解析它们并将它们放入 Postgres 而无需下载它们?

它需要在每个新文件上运行(这就是我选择 lambda 的原因),并且它需要分成几个表,所以它不仅仅是按原样放置文件(脚本已经获取文件并将其解析为正确的表)。

【问题讨论】:

  • 问:您的 lambda 函数在本地机器或 AWS EC2 上为现有的 S3 json 运行?
  • 我不确定我是否理解了这个问题,lambda 远程运行在 S3 上
  • 您是否有理由不想将这些作为两个单独的操作处理?一个是在一个批量本地操作中从现有的 s3 解决方案迁移到 RDS,另一个是使用 lambda 捕获所有新文件?
  • 现有s3转RDS,可以使用AWS EC2进行批量操作。
  • 我想把每个文件下载到一个 ec2 上,你认为它会运行得更快吗?

标签: python postgresql amazon-web-services amazon-s3 amazon-rds


【解决方案1】:

您可以使用 aws 胶水。但这将花费您每次运行的费用。

【讨论】:

  • 我正在考虑它,将很快检查它。但是在 ec2 上运行它不是更简单吗?
  • 您必须保持 ec2 的实例运行。当你使用胶水时。该作业在 aws 中运行。您可以在需要时安排作业,其余所有将由 aws 处理。
猜你喜欢
  • 2015-02-13
  • 1970-01-01
  • 1970-01-01
  • 2012-03-12
  • 1970-01-01
  • 1970-01-01
  • 2020-11-27
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多