【发布时间】:2019-02-25 07:25:14
【问题描述】:
我想设置一个 Ray 集群以在 AWS 上使用 Rtune over 4 gpus。但是每个 gpu 都属于我们团队的不同成员。我已经搜索了可用资源以寻求答案,但一无所获。帮忙?
【问题讨论】:
标签: ray
我想设置一个 Ray 集群以在 AWS 上使用 Rtune over 4 gpus。但是每个 gpu 都属于我们团队的不同成员。我已经搜索了可用资源以寻求答案,但一无所获。帮忙?
【问题讨论】:
标签: ray
为了使用跨多个 AWS 账户的实例启动 Ray 集群,您需要确保 AWS 实例可以通过相关端口相互通信。为此,您需要修改实例的 AWS 安全组(但请确保不要向全世界开放端口)。
您可以通过参数--redis-port、--redis-shard-ports、--object-manager-port 和--node-manager-port 选择需要哪些端口到ray start 上的头节点和只是--object-manager-port 和--node-manager-port - 头节点。请参阅relevant documentation。
但是,您尝试做的事情听起来有些复杂。如果可能的话,使用单个帐户会容易得多,在这种情况下,您可以使用Ray autoscaler。
【讨论】: