【问题标题】:Mesos slave node unable to restartMesos 从节点无法重启
【发布时间】:2017-11-23 20:28:51
【问题描述】:

我已经使用来自 Mesosphere 的 CloudFormation 模板设置了一个 Mesos 集群。集群启动后一切正常。

我最近注意到 Mesos 仪表板中没有列出任何从节点。 EC2 控制台显示从属服务器正在运行并通过健康检查。我重新启动了集群上的节点,但这没有帮助。 我 ssh'ed 到其中一个奴隶并注意到 mesos-slave 服务没有运行。已执行sudo systemctl status dcos-mesos-slave.service,但无法启动服务。

查看/var/log/mesos/tail -f mesos-slave.xxx.invalid-user.log.ERROR.20151127-051324.31267 并看到以下内容...

F1127 05:13:24.242182 31270 slave.cpp:4079] CHECK_SOME(state::checkpoint(path, bootId.get())): Failed to create temporary file: No space left on device

df -hfree 的输出显示还有大量磁盘空间。

这让我想知道,为什么它抱怨没有磁盘空间?

【问题讨论】:

    标签: mesos mesosphere


    【解决方案1】:

    好的,我想通了。

    在长时间运行 Mesos 或频繁加载时,/tmp 文件夹将没有任何磁盘空间,因为 Mesos 使用 /tmp/mesos/ 作为 work_dir。你看,文件系统只能保存一定数量的文件引用(inode)。在我的例子中,奴隶正在从/var/lib/docker/tmp 中的图像拉取中收集大量文件块。

    要解决此问题:

    1) 删除/tmp下的文件

    2) 设置不同的 work_dir 位置

    【讨论】:

      【解决方案2】:

      跑步是个好习惯

      docker rmi -f $(docker images | grep "<none>" | awk "{print \$3}")
      

      这样您将通过删除未使用的 docker 映像来释放空间

      【讨论】:

        猜你喜欢
        • 2021-10-18
        • 1970-01-01
        • 2017-09-11
        • 2016-08-21
        • 2019-05-13
        • 2022-06-16
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多