强制 H2O 苏打水集群以 YARN 模式在特定机器上启动答案

【问题标题】：Force H2O Sparkling Water cluster to start on a specific machine in YARN mode强制 H2O 苏打水集群以 YARN 模式在特定机器上启动
【发布时间】：2018-03-27 19:04:16
【问题描述】：

使用的工具：

火花2
苏打水 (H2O)
齐柏林笔记本
Pyspark 代码

我从我的 Zeppelin 笔记本以 INTERNAL 模式启动 H2O，因为我的环境是 YARN。我正在使用基本命令：

from pysparkling import *
hc = H2OContext.getOrCreate(spark)
import h2o

我的问题是我在一台弱机器上安装了 zeppelin 服务器，当我从 ZEPPELIN 运行我的代码时，H2O 集群会自动使用其 IP 在该机器上启动。驱动程序在那里运行，我受到 H2O 消耗的驱动程序内存的限制。我有 4 台具有 100GB 和许多内核的强大工作节点机器，集群在我运行模型时使用它们，但我希望 H2O 集群在其中一台工作机器上启动并在那里运行驱动程序，但我没有找到一种强制 H2O 这样做的方法。

我想知道是否有解决方案，或者我是否必须在工作机器上安装 zeppelin 服务器。

如果有解决方案，我们将不胜感激

【问题讨论】：

标签： apache-spark h2o apache-zeppelin sparkling-water

【解决方案1】：

以 yarn-cluster 模式开始你的工作。这将使驱动程序作为另一个 YARN 容器运行。

这是另一个描述差异的stackoverflow帖子：

Spark yarn cluster vs client - how to choose which one to use?

【讨论】：