【问题标题】:Stormcrawler - how does the es.status.filterQuery work?Stormcrawler - es.status.filterQuery 是如何工作的?
【发布时间】:2019-09-15 07:50:48
【问题描述】:

我正在使用 Stormcrawler 将数据放入一些 Elasticsearch 索引中,并且我在状态索引中有一堆 URL,具有各种状态 - DISCOVERED、FETCHED、ERROR 等。

我想知道我是否可以告诉 StormCrawler 只抓取 https 且状态为:DISCOVERED 的 URL,以及这是否真的有效。我的 es-conf.yaml 设置如下:

es.status.filterQuery: "-(url:https* AND status:DISCOVERED)"

正确吗? SC 如何使用 es.status.filterQuery?它是否运行搜索并将值用作过滤器以仅检索要获取的适用文档?

【问题讨论】:

    标签: elasticsearch web-crawler stormcrawler


    【解决方案1】:

    code of the AggregationSpout

    SC 如何使用 es.status.filterQuery?它是否运行 搜索并应用该值作为过滤器以仅检索适用的 要获取的文件?

    是的,它过滤发送到 ES 分片的查询。这对于处理抓取的子集很有用。

    这是一个正向过滤器,即文档必须与查询匹配才能被检索;您需要删除 - 才能执行您所描述的操作。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-07-24
      • 2016-11-13
      相关资源
      最近更新 更多