【问题标题】:Configuring external data source for Elastic MapReduce为 Elastic MapReduce 配置外部数据源
【发布时间】:2013-06-24 13:46:22
【问题描述】:

我们希望在当前数据库之上使用 Amazon Elastic MapReduce(我们在 EC2 上使用 Cassandra)。查看 Amazon EMR 常见问题解答,应该可以: Amazon EMR FAQ: Q: Can I load my data from the internet or somewhere other than Amazon S3?

但是,在创建新的作业流时,我们只能将 S3 存储桶配置为输入数据源。

关于如何做到这一点的任何想法/示例?

谢谢!

P.S.:我看过这个问题How to use external data with Elastic MapReduce,但答案并没有真正解释如何做/配置它,只是它是可能的。

【问题讨论】:

    标签: amazon-web-services cassandra elastic-map-reduce


    【解决方案1】:

    您如何处理数据? EMR 只是托管的 hadoop。您仍然需要编写某种流程。

    如果您正在编写 Hadoop Mapreduce 作业,那么您正在编写 java,您可以使用 Cassandra api 来访问它。

    如果您想使用 hive 之类的东西,则需要编写一个 Hive 存储处理程序来使用 Cassandra 支持的数据。

    【讨论】:

      【解决方案2】:

      尝试使用scp 将文件复制到您的 EMR 实例:

          my-desktop-box$ scp mylocaldatafile my-emr-node:/path/to/local/file
      

      (或使用ftp,或wget,或curl,或任何你想要的)

      然后使用ssh 登录您的EMR 实例并将其加载到hadoop

          my-desktop-box$ ssh my-emr-node
          my-emr-node$ hadoop fs -put /path/to/local/file /path/in/hdfs/file
      

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2010-11-01
        • 2014-10-15
        • 2012-03-18
        • 1970-01-01
        • 2021-07-28
        • 1970-01-01
        • 2013-12-01
        • 2018-09-08
        相关资源
        最近更新 更多