【问题标题】:AWS ElasticsearchService: Automated snapshot is running for more than 20daysAWS Elasticsearch Service:自动快照运行超过 20 天
【发布时间】:2020-10-06 03:36:51
【问题描述】:
几天来,我们在使用 ElasticSearch 查询时遇到了很多失败。当我监控集群运行状况时,CPU/JVM 内存利用率很高(几乎 98%)。
在调试问题时,我发现最后一个自动快照是 i IN_PROGRESS 状态超过 20 天,我怀疑这是根本原因。
但我不确定是什么导致了长快照,并且无法停止/删除该快照。当我使用带有 aws 签名的邮递员在存储库上尝试 http DELETE 请求时,我收到了 401 Unauthorized 错误消息 Your request is not allowed。
谁能帮助我了解长期运行的快照问题以及如何解决它。
提前致谢。
【问题讨论】:
标签:
amazon-web-services
elasticsearch
aws-elasticsearch
elasticsearch-snapshot
【解决方案1】:
这是 elasticsearch 中快照卡住的经典案例。当主节点和数据节点不同步分片的快照状态时,会发生卡住快照。这通常发生在集群变红或某些节点在高 JVM 压力下突然退出集群时。
高 CPU/JVM 内存利用率通常不是由卡住的快照引起的。大多数情况下,由于 JVM 利用率高,快照卡在IN_PROGRESS 状态。为了获得更好的 elasticsearch 集群性能,您应该尝试将 JVM 保持在 80% 以下。扩展是降低 JVM 压力的一种选择。
不允许用户访问 AWS Elasticsearch 上的自动快照。要解决在 IN_PROGRESS 状态下卡住快照的问题,您应该联系 AWS Elasticsearch 客户支持