【发布时间】:2017-04-02 15:14:50
【问题描述】:
我正在尝试在 Google Cloud 机器学习引擎上使用 Tensorflow 训练模型。由于 LD_LIBRARY_PATH 未指向正确的目录,tensorflow 似乎无法访问云计算机上的 libcupti 文件,如下面的日志条目所示:
lineno: 126
message: "Couldn't open CUDA library libcupti.so.8.0.
LD_LIBRARY_PATH: /usr/local/cuda/lib64"
levelname: "INFO"
pathname: "tensorflow/stream_executor/dso_loader.cc"
created: 1491143889.84344
据我所知,libcupti 文件都在/usr/local/cuda/extras/CUPTI/lib64 中,所以我需要将它附加到 LD_LIBRARY_PATH 变量中,但是通过gcloud ml-engine jobs submit training $JOB_NAME 命令提交作业时我该怎么做呢?或者也许有更简单的解决方案?
【问题讨论】:
-
是否会为所有 GPU 训练作业触发此错误?您能否使用 Google Cloud 在 GPU 上运行任何训练作业?
-
我还没有时间尝试测试另一种类型的工作...不过如果有机会我会尝试的。
标签: tensorflow google-cloud-platform google-cloud-ml-engine