【问题标题】:How to connect two computers to an H2O cluster in Python如何在 Python 中将两台计算机连接到 H2O 集群
【发布时间】:2020-09-21 23:43:38
【问题描述】:

我有两台计算机要连接到一个 H2O 集群。一个有 4 个核心,另一个有 6 个。当我运行时

h2o.init(ip = '10.0.0.89', port = 54321)

在第一台计算机上,我得到以下输出:

H2O cluster uptime: 1 minutes 56 seconds 846 milliseconds
H2O cluster version:    3.8.2.3
H2O cluster name:   H2O_started_from_python_samerens_dii030
H2O cluster total nodes:    1
H2O cluster total free memory:  3.4 GB
H2O cluster total cores:    4
H2O cluster allowed cores:  4
H2O cluster healthy:    True
H2O Connection ip:  10.0.0.89
H2O Connection port:    54321
H2O Connection proxy:   None
Python Version: 3.7.4

当我在第二台计算机上运行相同的命令时,我得到相同的输出(当然正常运行时间除外)。节点总数不应该增加到 2 个,核心总数增加到 10 个吗?是不是做错了什么?

【问题讨论】:

  • 要向@erin-ledell 添加更多输入,我建议您考虑使用新版本的 H2O 3。您使用的是几年前的 3.8,从那时起已经进行了很多改进.目前,3.30+ 已经发布,一些多节点改进不会出现在您的版本中。

标签: python distributed-computing h2o


【解决方案1】:

您目前正在做的是在一台机器上启动 H2O 集群,然后从另一台机器连接到它(这是您希望两个用户可以访问同一个 H2O 集群以共享数据/模型的场景)。

您要做的是启动一个多节点 H2O 集群。目前尚不清楚这是否会加快您的训练速度,因为当您使用多节点集群时存在通信开销,所以检查一下总是好的。如果您要添加更多的内核,例如40 + 40 总共 80 个核心,我希望在大多数情况下可以加快速度,但是将 4 增加到 6 可能没有太大帮助(我只是想强调一下,在 6 核心单核上测试训练速度很好机器集群与 10 核多核集群)。 H2O 用户指南here 中有相关说明。还有一个关于 H2O 集群的常见问题解答here。如果文档不够清楚,请告诉我(我注意到示例/信息有点稀疏)。

最后,如果您特别想使用 Amazon EC2 进行集群,请参阅 here 的更多信息。

【讨论】:

    猜你喜欢
    • 2016-06-23
    • 1970-01-01
    • 2023-03-25
    • 2021-08-04
    • 1970-01-01
    • 2017-04-16
    • 2023-03-09
    • 1970-01-01
    • 2019-08-09
    相关资源
    最近更新 更多