高效地将 s3 文件处理到 Postgres

【问题标题】：Working with s3 files into Postgres effciently高效地将 s3 文件处理到 Postgres
【发布时间】：2019-12-26 08:20:34
【问题描述】：

我目前正在使用 AWS S3 作为许多 json 文件的存储（200 万个并且还在增加）。我想将所有这些文件放在一个数据库中，在 Postgres RDS 中。

我目前正在使用解析文件的 AWS Lambda，它比在本地运行慢得多。此外，使用 lambda 在 Python 中运行脚本和安装外部模块的工作非常糟糕。

是否有一种更快、更有效的方式来处理 S3 文件、解析它们并将它们放入 Postgres 而无需下载它们？

它需要在每个新文件上运行（这就是我选择 lambda 的原因），并且它需要分成几个表，所以它不仅仅是按原样放置文件（脚本已经获取文件并将其解析为正确的表）。

【问题讨论】：

问：您的 lambda 函数在本地机器或 AWS EC2 上为现有的 S3 json 运行？
我不确定我是否理解了这个问题，lambda 远程运行在 S3 上
您是否有理由不想将这些作为两个单独的操作处理？一个是在一个批量本地操作中从现有的 s3 解决方案迁移到 RDS，另一个是使用 lambda 捕获所有新文件？
现有s3转RDS，可以使用AWS EC2进行批量操作。
我想把每个文件下载到一个 ec2 上，你认为它会运行得更快吗？

标签： python postgresql amazon-web-services amazon-s3 amazon-rds

【解决方案1】：

您可以使用 aws 胶水。但这将花费您每次运行的费用。

【讨论】：

我正在考虑它，将很快检查它。但是在 ec2 上运行它不是更简单吗？
您必须保持 ec2 的实例运行。当你使用胶水时。该作业在 aws 中运行。您可以在需要时安排作业，其余所有将由 aws 处理。

猜你喜欢

2015-02-13
1970-01-01
1970-01-01
2012-03-12
1970-01-01
1970-01-01
2020-11-27
1970-01-01
1970-01-01

相关资源

下载 2021-06-06
下载 2023-01-23
下载 2023-02-05

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode