【发布时间】:2016-06-14 11:22:13
【问题描述】:
我需要使用 Hadoop / EMR 处理存储在 Amazon S3 和 Amazon Glacier 中的数据,并将输出数据保存在 RDBMS 中,例如。垂直
我是大数据方面的菜鸟。而且我只看过很少的关于 map reduce 和 sparx 的在线会议和 ppts。并创建了一些用于学习目的的虚拟 map reduce 代码。
到目前为止,我只有一些命令可以让我将数据从 S3 导入 Amazon EMR 中的 HDFC,并在处理后将它们存储在 HDFS 文件中。
以下是我的问题:
在执行 map reduce 之前是否真的必须先将数据从 S3 同步到 HDFC,或者有没有办法直接使用 S3。`
如何让 hadoop 访问 Amazon Glacier 数据`
最后如何将输出存储到数据库。`
欢迎任何建议/参考。
【问题讨论】:
标签: hadoop apache-spark amazon-s3 emr amazon-glacier