【问题标题】:Hadoop YARN - performance of LocalJobRunner vs. cluster deployed jobHadoop YARN - LocalJobRunner 与集群部署作业的性能
【发布时间】:2014-06-12 09:43:07
【问题描述】:

我正在对在 2 个节点 Hadoop 2.2.0 集群上运行的 M/R 作业进行一些测试。我想了解的一件事是在本地模式下运行作业(不由 ResourceManager 管理)并在 YARN 上运行它的性能注意事项。我所做的测试表明,当作业通过 LocalJobRunner 执行时,它的运行速度比由 YARN 管理时快得多。设置集群时,我按照此处描述的步骤 http://raseshmori.wordpress.com/2012/10/14/install-hadoop-nextgen-yarn-multi-node-cluster/ 进行操作,也许指南忘记提及一些配置?

谢谢!

【问题讨论】:

    标签: hadoop hadoop-yarn hadoop2


    【解决方案1】:

    您将运行 LocalJobRunner 进行测试和小示例。当您需要处理大量数据以证明首先使用 Hadoop(也称为“大数据”)时,您会使用集群。

    当你运行一个小例子时,运行分布式事物的开销超过了并行化的好处

    【讨论】:

      【解决方案2】:

      阿农是对的。我发现在我的一个用例中,使用 LocalJobRunner 运行比使用 yarn 快得多。使用 LocalJobRunner 运行会将地图进程作为进程内和本地机器运行。作业不会提交到 HDFS 集群。因此,地图任务不会安排在多台机器上。因此,应使用 LocalJobRunner 对代码进行单元测试。就是这样。对于所有其他实际用途,请使用纱线。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2019-07-13
        • 2017-09-30
        • 2014-12-25
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多