如何将 Amazon Glacier / S3 与 hadoop map reduce / spark 结合使用？答案

【问题标题】：How can I couple Amazon Glacier / S3 with hadoop map reduce / spark?如何将 Amazon Glacier / S3 与 hadoop map reduce / spark 结合使用？
【发布时间】：2016-06-14 11:22:13
【问题描述】：

我需要使用 Hadoop / EMR 处理存储在 Amazon S3 和 Amazon Glacier 中的数据，并将输出数据保存在 RDBMS 中，例如。垂直

我是大数据方面的菜鸟。而且我只看过很少的关于 map reduce 和 sparx 的在线会议和 ppts。并创建了一些用于学习目的的虚拟 map reduce 代码。

到目前为止，我只有一些命令可以让我将数据从 S3 导入 Amazon EMR 中的 HDFC，并在处理后将它们存储在 HDFS 文件中。

以下是我的问题：

在执行 map reduce 之前是否真的必须先将数据从 S3 同步到 HDFC，或者有没有办法直接使用 S3。`
如何让 hadoop 访问 Amazon Glacier 数据`
最后如何将输出存储到数据库。`

欢迎任何建议/参考。

【问题讨论】：

标签： hadoop apache-spark amazon-s3 emr amazon-glacier

【解决方案1】：

EMR 集群能够从 S3 读取/写入数据，因此无需将数据复制到集群。 S3 有一个作为 Hadoop FileSystem 的实现，因此它大部分可以被视为与 HDFS 相同。

AFAIK 您的 MR/Spark 作业无法直接从 Glacier 访问数据，必须首先从 Glacier 下载数据，这本身就是一个漫长的过程。

查看Sqoop 在 HDFS 和 DB 之间抽取数据

【讨论】：