【发布时间】:2017-07-13 18:21:48
【问题描述】:
所以每天我都会(自动)将大量 .csv 文件上传到我的 s3 存储桶中,我的下一步是将这些表加入/合并/concat/etc 进入更最终的状态,以便将其上传到 redshift。 为了做到这一点,你推荐我哪项服务?我分析了不同的方法:
s3 -> EC2 -> 使用 Python 处理数据 -> Redshift(我不认为这真的很有效) s3 -> Pipeline -> EMR -> Pipeline -> Redshift(我对 EMR 的了解为 0) 我可以处理它已经处于红移状态吗?还有其他方法吗?通常我会产生 1400 万行数据,所以它需要有点高效。
数据的操作只是合并或连接表。示例:
表 1:键、d1、d2、d3
表 2:键、d4、d5
redshift 上的预期表:key, d1, d2, d3, d4, d5
在另一种情况下,只是将一个放在另一个之下。
【问题讨论】:
-
您是否以任何方式操作内容,还是只是将多个文件合并为一个文件? Amazon Redshift 可以从多个文件加载数据——事实上,这是推荐的方法,因为它可以并行化该过程。随时编辑您的问题,以添加有关您的流程正在做什么的更多详细信息。
标签: amazon-web-services amazon-ec2 amazon-redshift amazon-emr amazon-data-pipeline