ElasticSearch Scroll API 连接时间答案

【问题标题】：ElasticSearch Scroll API Connection timeElasticSearch Scroll API 连接时间
【发布时间】：2020-04-08 09:47:17
【问题描述】：

我们使用的是 Elasticsearch 6.8 版本。我只想使用 Scroll API (https://www.elastic.co/guide/en/elasticsearch/reference/6.8/search-request-scroll.html) 和 scroll=1m 连接时间。（1m是一个例子，我要问的是x分钟或小时的最大值..）

我想知道的是这个滚动连接时间。如果我使用 scrollId 请求，连接时间会重置，但它的最长时间是多少，或者保持连接很长时间是不好的？

我想使用带有 1-1000 万条记录的 scrollId，并每 1 分钟将我的文档批量导出。无论如何，如果我的系统以某种方式关闭，我想继续我停止的地方，所以我想尽可能长时间地使用我的连接，如果它不使用额外的额外内存或 cpu 等。我可以保持的最长时间是多少连接活着，它应该是什么？还是应该这样？

谢谢！

【问题讨论】：

【解决方案1】：

保持滚动上下文活动的最大值是 24 小时（24 小时）。可以通过设置“search.max_keep_alive”集群设置来更改此限制。

设置较大的值会增加分片的负载。

滚动不是针对实时用户请求，而是针对处理大量数据，例如为了重新索引将一个索引的内容转换为具有不同配置的新索引

通常，后台合并过程通过合并来优化索引将较小的细分市场组合在一起以创建新的较大细分市场，此时较小的段被删除。这个过程在继续滚动，但开放的搜索上下文会阻止旧段在它们仍在使用时被删除。这就是 Elasticsearch 的方式能够返回初始搜索请求的结果，无论后续对文档进行更改。

当滚动超时时自动删除搜索上下文被超过。然而，如前所述，保持卷轴打开是有代价的在上一节中，因此应将滚动明确清除为使用 clear-scroll 不再使用滚动条接口：

【讨论】：