【问题标题】:Archiving old websites with StormCrawler and Elasticsearch使用 StormCrawler 和 Elasticsearch 归档旧网站
【发布时间】:2018-06-12 20:47:01
【问题描述】:

当storm爬虫重新访问之前已经抓取过的网站时,它会更新elasticsearch索引中的相应文档。即,旧内容被新内容覆盖。

是否有任何 Stormcrawler 功能可以让我们保留某些字段的旧版本并使用时间戳对其进行注释?

我们研究了 elasticsearch rollover api 和摄取管道。摄取管道看起来很有希望在更新操作上修改弹性搜索文档。有没有办法通过stormcrawler配置将管道参数(即?pipeline=xxx)附加到相关的elasticsearch请求中?

【问题讨论】:

    标签: web-crawler stormcrawler


    【解决方案1】:

    一种选择是使用 URL + 时间戳作为键,并分别存储文档的每个版本。不过,您必须在搜索时进行重复数据删除。这需要对代码稍作改动。

    我们目前无法通过配置附加参数,但它应该是可行的。 ES里我没用过管道,难道不能配置成在特定索引上默认使用吗?

    【讨论】:

    猜你喜欢
    • 2021-05-21
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-08-13
    • 1970-01-01
    • 2019-07-28
    • 2011-10-04
    • 1970-01-01
    相关资源
    最近更新 更多