【问题标题】:Datastax Enterprise 5.0 cluster rebalance attempts failDatastax Enterprise 5.0 集群重新平衡尝试失败
【发布时间】:2017-02-26 00:23:33
【问题描述】:

我们有一个由 4 台机器组成的 DSE 5.0 集群。在数据摄取期间,其中一台机器存储了大部分数据(100G),而其他三台机器存储的数据少得多(每台大约 15G)。我不知道为什么会发生这种情况,并计划进行调查,并可能在一个单独的问题中提出。

现在我尝试重新平衡集群。我知道的唯一方法是在 OpsCenter 中单击 Cluster Actions -> Rebalance。重新平衡开始并在大约 5 分钟后可重现地中止并出现此错误:

Rebalance Failed: java.rmi.UnmarshalException: Error unmarshaling return header; nested exception is: 
java.net.SocketTimeoutException: Read timed out

部分数据按照重新平衡预览中的建议传输,大部分不是。

事件日志:

Error   Rebalance failed: java.rmi.UnmarshalException: Error unmarshaling return header; nested exception is: java.net.SocketTimeoutException: Read timed out       admin
Info    Moving node xx.xx.xx.xx from token 5848419665553670365 to 2542108353485192999   NODE-04 
Info    Starting rebalance

可能是什么原因,我该如何调查和解决?

集群部署在 Azure 上的 4 台专用机器上。

【问题讨论】:

  • 你能详细说明一下这个数据摄取部分吗?我们是在谈论大量数据还是正常操作?我只是想更好地了解为什么这可能首先发生。 @helmser 是正确的,在具有良好数据模型的正常用例中,它应该均匀分布数据。平衡工作失败仍然令人不安,如果这是一个错误,他们将能够与您一起诊断和诊断,并让您与 DataStax 的客户经理联系,让您与技术人员取得联系。解决。
  • @mando222 - PK 是从其余数据生成的简单 SHA 哈希,因此我假设 PK 分布良好。还没有正确分析实际分布。无论如何,重新平衡失败对我来说也确实像一个错误。

标签: cassandra datastax datastax-enterprise datastax-startup


【解决方案1】:

您不必在数据加载后重新平衡集群。您可能想要更深入地挖掘您的数据模型,并确保您的分区键能够将数据均匀地分布在环上。在这种情况下,我怀疑热点。

【讨论】:

  • 感谢 helmser,这听起来完全合理。我必须分析PK分布。然而,这并不能回答这个问题——我认为再平衡功能的失败可能还有其他原因。毕竟它是在官方 UI 中提供的,可能是针对这种情况,所以我认为它应该做得更好。你碰巧知道超时可以做什么吗?
猜你喜欢
  • 2021-06-25
  • 2023-03-18
  • 2013-02-12
  • 2015-11-30
  • 1970-01-01
  • 2017-05-12
  • 1970-01-01
  • 1970-01-01
  • 2013-04-26
相关资源
最近更新 更多