【发布时间】:2018-01-12 12:55:31
【问题描述】:
我想,我正在尝试实施一个非常简单的过程,但我真的不知道什么是最好的方法。
我想从 S3 读取一个大的 csv(大约 30gb)文件,进行一些转换并将其加载到 RDS MySQL 中,我希望这个过程是可复制的。
我认为最好的方法是 Aws 数据管道,但我发现这项服务更适合在多次转换后将来自不同来源的数据加载到 redshift。 我还看到创建管道的过程很慢而且有点混乱。 然后我找到了Coursera的dataduct wrapper,但是经过一番研究,这个项目似乎已经被放弃了(最后一次提交是一年前)。
所以我不知道是否应该继续尝试使用 aws 数据管道或采取其他方法。
我还阅读了 AWS Simple Workflow 和 Step Functions,但我不知道它是否更简单。 然后我看了一个AWS的胶水的视频,看起来不错,可惜还没有,不知道亚马逊什么时候推出。
如你所见,我有点迷茫,谁能启发我?
提前致谢
【问题讨论】:
-
Data Pipeline 在 Redshift 之前就已经存在,所以我不确定你为什么认为它主要是为将数据加载到 Redshift 中而设计的。我同意建立管道是缓慢而混乱的。您使用 RDS MySQL 而不是 RDS Aurora 的任何原因? Aurora 能够直接从 S3 中的 CSV 文件加载数据(类似于 Redshift)。
-
我认为这是因为几乎所有预制模板和示例都涉及加载到 Redshift。 Aurora作为MySQL可以直接加载一个csv,问题是我需要在加载之前转换数据。