【问题标题】:Force H2O Sparkling Water cluster to start on a specific machine in YARN mode强制 H2O 苏打水集群以 YARN 模式在特定机器上启动
【发布时间】:2018-03-27 19:04:16
【问题描述】:

使用的工具:

  • 火花2
  • 苏打水 (H2O)
  • 齐柏林笔记本
  • Pyspark 代码

我从我的 Zeppelin 笔记本以 INTERNAL 模式启动 H2O,因为我的环境是 YARN。我正在使用基本命令:

from pysparkling import *
hc = H2OContext.getOrCreate(spark)
import h2o

我的问题是我在一台弱机器上安装了 zeppelin 服务器,当我从 ZEPPELIN 运行我的代码时,H2O 集群会自动使用其 IP 在该机器上启动。驱动程序在那里运行,我受到 H2O 消耗的驱动程序内存的限制。我有 4 台具有 100GB 和许多内核的强大工作节点机器,集群在我运行模型时使用它们,但我希望 H2O 集群在其中一台工作机器上启动并在那里运行驱动程序,但我没有找到一种强制 H2O 这样做的方法。

我想知道是否有解决方案,或者我是否必须在工作机器上安装 zeppelin 服务器。

如果有解决方案,我们将不胜感激

【问题讨论】:

    标签: apache-spark h2o apache-zeppelin sparkling-water


    【解决方案1】:

    以 yarn-cluster 模式开始你的工作。这将使驱动程序作为另一个 YARN 容器运行。

    这是另一个描述差异的stackoverflow帖子:

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-03-03
      • 2022-01-23
      • 2015-09-23
      • 1970-01-01
      • 2023-03-29
      • 1970-01-01
      相关资源
      最近更新 更多