【问题标题】:AWS Sagemaker: Jupyter Notebook kernel keeps dyingAWS Sagemaker:Jupyter Notebook 内核不断死亡
【发布时间】:2021-01-27 19:23:03
【问题描述】:

在 Sagemaker 上的 Jupyter Notebooks 中运行一段代码时,我时不时会断开连接。我通常只是重新启动我的笔记本并再次运行所有单元。但是,我想知道是否有办法重新连接到我的实例而不会丢失我的进度。此刻,它显示底部栏有“无内核”,但我的文件在内核会话选项卡中似乎处于活动状态。我可以恢复笔记本的变量和内容吗?另外,有没有办法防止将来内核断开连接?

请注意,我恢复到 tornado = 5.1.1,这似乎减少了断开连接的次数,但它仍然时不时发生。

【问题讨论】:

  • 从描述上看,好像是用 notebook 训练模型,对吗?
  • 实际上是在训练前对数据集进行预处理时发生的。
  • 如果数据量大,建议单独运行数据处理作业。您可以连接到 EMR 集群并在 EMR 集群上运行 spark 作业,并将输出存储在 S3 上。

标签: amazon-web-services jupyter-notebook amazon-sagemaker


【解决方案1】:

通常,由于作业在没有用户输入的情况下长时间运行,因此不活动会导致断开连接。如果预处理需要很长时间,您可以增加处理作业的实例大小以使其执行得更快,或者增加实例计数。如果您使用的是 EMR,您现在可以从 2021 年 12 月起直接在 EMR 集群上运行 EMR Spark 查询: https://aws.amazon.com/about-aws/whats-new/2021/12/amazon-sagemaker-studio-data-notebook-integration-emr/

这里有一个有用的博客https://aws.amazon.com/blogs/machine-learning/build-amazon-sagemaker-notebooks-backed-by-spark-in-amazon-emr/,它有助于您启动和运行。

如果您需要更多信息,请告诉我,如果有用,请为答案投票。 :-)

【讨论】: