【发布时间】:2019-09-15 07:50:48
【问题描述】:
我正在使用 Stormcrawler 将数据放入一些 Elasticsearch 索引中,并且我在状态索引中有一堆 URL,具有各种状态 - DISCOVERED、FETCHED、ERROR 等。
我想知道我是否可以告诉 StormCrawler 只抓取 https 且状态为:DISCOVERED 的 URL,以及这是否真的有效。我的 es-conf.yaml 设置如下:
es.status.filterQuery: "-(url:https* AND status:DISCOVERED)"
正确吗? SC 如何使用 es.status.filterQuery?它是否运行搜索并将值用作过滤器以仅检索要获取的适用文档?
【问题讨论】:
标签: elasticsearch web-crawler stormcrawler