【发布时间】:2019-09-08 23:45:17
【问题描述】:
我开始使用 ray 进行分布式机器学习,但我已经遇到了一些问题。 内存使用量只是在增长,直到程序崩溃。尽管我不断清除列表,但内存不知何故泄漏。知道为什么吗?
我的规格: 操作系统平台和发行版:Ubuntu 16.04 雷安装自:二进制 射线版本:0.6.5 Python版本:3.6.8
我已经尝试过使用实验队列而不是DataServer类,但问题还是一样。
import numpy as np
import ray
import time
ray.init(redis_max_memory=100000000)
@ray.remote
class Runner():
def __init__(self, dataList):
self.run(dataList)
def run(self,dataList):
while True:
dataList.put.remote(np.ones(10))
@ray.remote
class Optimizer():
def __init__(self, dataList):
self.optimize(dataList)
def optimize(self,dataList):
while True:
dataList.pop.remote()
@ray.remote
class DataServer():
def __init__(self):
self.dataList= []
def put(self,data):
self.dataList.append(data)
def pop(self):
if len(self.dataList) !=0:
return self.dataList.pop()
def get_size(self):
return len(self.dataList)
dataServer = DataServer.remote()
runner = Runner.remote(dataServer)
optimizer1 = Optimizer.remote(dataServer)
optimizer2 = Optimizer.remote(dataServer)
while True:
time.sleep(1)
print(ray.get(dataServer.get_size.remote()))
运行一段时间后,我收到此错误消息:
【问题讨论】:
-
我认为您忘记包含错误消息。另外,您的打印语句打印什么?某些列表的长度增长速度是否比清除速度快?一些问题/cmets:1)你能看到哪个进程正在使用所有内存(例如,通过
top)。 2) 你也可以试试ray.init(object_store_memory=10**9)。但是,我怀疑它是使用越来越多内存的 Python 参与者之一。我建议查看 Ray 时间线,看看它是否符合预期(ray.readthedocs.io/en/latest/… 上的文档)。