【问题标题】:Apache Giraph on EMREMR 上的 Apache Giraph
【发布时间】:2014-02-28 21:16:38
【问题描述】:

有人在 EMR 上尝试过 Apache Giraph 吗?

在我看来,在 EMR 上运行的唯一要求是将适当的引导脚本添加到 Job Flow 配置中。然后我只需要使用标准的自定义 JAR 启动步骤来启动 Giraph Runner,并为我的 Giraph 程序提供适当的参数。

任何文档/教程,或者如果您可以分享您在 EMR 上使用 Giraph 的经验,我们将不胜感激。

【问题讨论】:

    标签: hadoop emr giraph


    【解决方案1】:

    是的,我定期在 EMR 上运行 Giraph 作业,但我不使用“作业流程”,我手动登录到主节点并将其用作普通 Hadoop 集群(我只是使用 hadoop jar 命令提交作业) .

    您是对的,您需要添加引导脚本来运行 Zookeeper 并将 Zookeeper 详细信息添加到核心站点配置。这是我的做法:

    引导操作 -

    Configure Hadoop s3://elasticmapreduce/bootstrap-actions/configure-hadoop --site-key-value, io.file.buffer.size=65536, --core-key-value, giraph.zkList=localhost:2181, --mapred-key-value, mapreduce.job.counters.limit=1200

    Run if s3://elasticmapreduce/bootstrap-actions/run-if instance.isMaster=true, s3://hpc-chikitsa/zookeeper_install.sh

    zookeeper_install.sh的内容是:

    #!/bin/bash
    wget --no-check-certificate http://apache.mesi.com.ar/zookeeper/zookeeper3.4./zookeeper3.4.5.tar.gz
    tar zxvf zookeeper-3.4.5.tar.gz
    cd zookeeper-3.4.5
    mv conf/zoo_sample.cfg conf/zoo.cfg
    sudo bin/zkServer.sh start
    

    然后将 Giraph jar 文件复制到主节点(使用 scp),然后 ssh 到主节点并使用 hadoop jar 命令提交作业。

    希望对您有所帮助。

    这是 giraph 用户邮件列表上的相关邮件线程:

    https://www.mail-archive.com/user%40giraph.apache.org/msg01240.html

    【讨论】:

    • 感谢它帮助很大
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-07-07
    • 2016-12-09
    相关资源
    最近更新 更多