【问题标题】:Tensorflow - Checkpoints not saving to Sagemaker Notebook InstanceTensorflow - 检查点未保存到 Sagemaker Notebook 实例
【发布时间】:2018-01-31 10:13:02
【问题描述】:

我正在 Amazon Sagemaker 笔记本实例中使用 Tensorflow 运行 Python 脚本。我正常写入笔记本中的存储没有问题,但由于某种原因,我在尝试保存 Tensorflow 模型检查点时没有成功。这段代码在移植到 Sagemaker 之前就可以正常工作。

以下是我的代码的简化版本:

bucket = 'sagemaker-complaints-data'    
prefix = 'DeepTestV2' # place to upload training files within the bucket
timestamp = str(int(time()))
out_dir = os.path.abspath(os.path.join(bucket, prefix, "runs", timestamp))
checkpoint_dir = os.path.abspath(os.path.join(out_dir, "checkpoints"))
checkpoint_prefix = os.path.join(checkpoint_dir, "model")
path = saver.save(sess, checkpoint_prefix, global_step=current_step)
print("Saved model checkpoint to {}\n".format(path))

没有抛出错误,并且打印语句正在输出正确的路径。我研究了在 Sagemaker 中使用检查点是否存在任何已知问题,但实际上没有发现任何描述此问题的帖子。

【问题讨论】:

  • 您为实例或训练作业提供的 IAM 角色权限可能存在问题。该角色是否有权写入该 S3 存储桶?您还可以查看 CloudWatch Logs 以获取有关可能错误的提示。

标签: python python-3.x amazon-web-services tensorflow amazon-sagemaker


【解决方案1】:

我发现这是在哪里 - 由于某种原因,“检查点”似乎是一个保留字 - 将单词更改为“检查”允许我编写文件夹。希望这对某人有帮助!

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2020-10-27
    • 2022-10-25
    • 1970-01-01
    • 2020-05-25
    • 2016-03-10
    • 2019-11-15
    • 1970-01-01
    相关资源
    最近更新 更多