【问题标题】:Presto dashboard + presto workers machines are not stablePresto 仪表板 + presto worker 机器不稳定
【发布时间】:2019-12-16 12:33:35
【问题描述】:

我们注意到我们的 presto 集群(presto 安装在 Linux 机器上)中有以下奇怪的行为

我们有 9 台 presto worker 机器,

从 presto 仪表板我们可以看到,有些时候有 7-8 活跃的工作人员,有些时候所有的 presto 工作人员 - 9

这是正常行为吗?

从 presto 工作人员日志中我看不出有什么不寻常的地方

我不确定我们是否需要搜索任何网络问题或任何其他问题?

注意 - 当我重新启动所有 presto 工作人员时,重新启动后 presto 工作人员在仪表板上是稳定的,但在 5-10 小时后我们再次出现奇怪的行为,我们对这种情况无能为力,

注意 1 - 我们检查 presto 二进制文件是否意外重启 - 但事实并非如此,所有 presto 工作程序二进制文件都是稳定的

./launcher status
Running as 22815

我必须另外说,Presto 仪表板没有显示哪些 presto 工作人员出现故障,因此很难理解哪些是“坏”的 presto 工作人员,

*** 在 presto 协调器日志中 - 我们可以看到这样的消息:

- but not sure this are related to our issues? 

WARN    http-client-memoryManager-scheduler     com.facebook.presto.memory.RemoteNodeMemory     Error fetching memory info from http://105.14.25.4:1010/v1/memory: java.util.concurrent.TimeoutException: Total timeout 10000 ms elapsed

【问题讨论】:

  • 这不是正常行为,有些东西没有按预期工作。您可能想在 Presto Community Slack (prestosql.io/community.html) 中的 #troubleshooting 上寻求故障排除建议。
  • 那样的话,你有方向吗?或一些提示? ,我认为社区会在一段时间后回答,而堆栈溢出是我们得到快速回答的地方-:)
  • 如果我知道答案就好了……你需要检查协调员和工人的日志,寻找任何异常。社区可以帮助理解日志的含义和重要性(尤其是 Presto 的创建者在那里活跃)。
  • 好的,我会的 - 你能在这个线程上给我建议吗 - stackoverflow.com/questions/57392597/…
  • 亲爱的 - @Piotr Findeisen,请查看我在问题中的更新,也许这与 mu 问题有关?

标签: presto trino


【解决方案1】:

对于我的问题给您带来的不便,我深表歉意

其实这是我的错,我会解释

在这个 presto 集群中,我们有 9 个 presto worker

但我忘记从其他集群中删除相同的主机名工作人员

所以这种行为是因为 3 个重复的主机名(presto workers)

去掉重复的 presto 工人后,现在 presto 非常稳定

【讨论】:

    猜你喜欢
    • 2020-03-21
    • 2019-05-16
    • 2019-07-13
    • 1970-01-01
    • 2020-08-29
    • 2019-06-21
    • 2017-08-28
    • 2022-01-18
    • 2016-08-24
    相关资源
    最近更新 更多