【发布时间】:2017-04-28 23:40:31
【问题描述】:
我尝试使用此示例代码在 Google Cloud ML 上训练我的模型:
import keras
from keras import optimizers
from keras import losses
from keras import metrics
from keras.models import Model, Sequential
from keras.layers import Dense, Lambda, RepeatVector, TimeDistributed
import numpy as np
def test():
model = Sequential()
model.add(Dense(2, input_shape=(3,)))
model.add(RepeatVector(3))
model.add(TimeDistributed(Dense(3)))
model.compile(loss=losses.MSE,
optimizer=optimizers.RMSprop(lr=0.0001),
metrics=[metrics.categorical_accuracy],
sample_weight_mode='temporal')
x = np.random.random((1, 3))
y = np.random.random((1, 3, 3))
model.train_on_batch(x, y)
if __name__ == '__main__':
test()
我得到了这个错误:
The replica master 0 exited with a non-zero status of 245. Termination reason: Error.
详细的错误输出很大,所以我贴上here in pastebin
【问题讨论】:
-
在 console.google.com 中转到汉堡菜单,选择“ML Engine > Jobs”并点击您的工作。滚动到底部。您的 RAM 使用情况如何?你可以 OOMed 吗?
-
对于这个特定的工作“这个图表没有数据”。但对于我的其他工作,它更复杂,并且有同样的错误,内存使用量是 0.0359
-
日志输出表明您遇到了分段错误。在您的 Cloud ML 作业中,您是否指定了要使用的 TensorFlow 版本?
-
@JeremyLewi 不,我没有指定版本。我刚刚尝试在测试代码上再次运行作业,它现在可以工作了。稍后我会尝试测试我的主项目。
-
可能是您的旧项目默认使用旧的运行时版本,其中包含旧版本的 numpy,我们偶尔会在其中看到这些段错误
标签: machine-learning tensorflow google-cloud-platform google-cloud-ml google-cloud-ml-engine