为 Elastic MapReduce 配置外部数据源答案

【问题标题】：Configuring external data source for Elastic MapReduce为 Elastic MapReduce 配置外部数据源
【发布时间】：2013-06-24 13:46:22
【问题描述】：

我们希望在当前数据库之上使用 Amazon Elastic MapReduce（我们在 EC2 上使用 Cassandra）。查看 Amazon EMR 常见问题解答，应该可以： Amazon EMR FAQ: Q: Can I load my data from the internet or somewhere other than Amazon S3?

但是，在创建新的作业流时，我们只能将 S3 存储桶配置为输入数据源。

关于如何做到这一点的任何想法/示例？

谢谢！

P.S.：我看过这个问题How to use external data with Elastic MapReduce，但答案并没有真正解释如何做/配置它，只是它是可能的。

【问题讨论】：

【解决方案1】：

您如何处理数据？ EMR 只是托管的 hadoop。您仍然需要编写某种流程。

如果您正在编写 Hadoop Mapreduce 作业，那么您正在编写 java，您可以使用 Cassandra api 来访问它。

如果您想使用 hive 之类的东西，则需要编写一个 Hive 存储处理程序来使用 Cassandra 支持的数据。

【讨论】：

【解决方案2】：

尝试使用scp 将文件复制到您的 EMR 实例：

    my-desktop-box$ scp mylocaldatafile my-emr-node:/path/to/local/file

（或使用ftp，或wget，或curl，或任何你想要的）

然后使用ssh 登录您的EMR 实例并将其加载到hadoop：

    my-desktop-box$ ssh my-emr-node
    my-emr-node$ hadoop fs -put /path/to/local/file /path/in/hdfs/file

【讨论】：