Stormcrawler - es.status.filterQuery 是如何工作的？答案

【问题标题】：Stormcrawler - how does the es.status.filterQuery work?Stormcrawler - es.status.filterQuery 是如何工作的？
【发布时间】：2019-09-15 07:50:48
【问题描述】：

我正在使用 Stormcrawler 将数据放入一些 Elasticsearch 索引中，并且我在状态索引中有一堆 URL，具有各种状态 - DISCOVERED、FETCHED、ERROR 等。

我想知道我是否可以告诉 StormCrawler 只抓取 https 且状态为：DISCOVERED 的 URL，以及这是否真的有效。我的 es-conf.yaml 设置如下：

es.status.filterQuery: "-(url:https* AND status:DISCOVERED)"

正确吗？ SC 如何使用 es.status.filterQuery？它是否运行搜索并将值用作过滤器以仅检索要获取的适用文档？

【问题讨论】：

标签： elasticsearch web-crawler stormcrawler

【解决方案1】：

见code of the AggregationSpout。

SC 如何使用 es.status.filterQuery？它是否运行搜索并应用该值作为过滤器以仅检索适用的要获取的文件？

是的，它过滤发送到 ES 分片的查询。这对于处理抓取的子集很有用。

这是一个正向过滤器，即文档必须与查询匹配才能被检索；您需要删除 - 才能执行您所描述的操作。

【讨论】：