【问题标题】:Add field to crawled content with StormCrawler (and Elasticsearch)使用 StormCrawler(和 Elasticsearch)将字段添加到爬网内容
【发布时间】:2019-12-22 11:55:19
【问题描述】:

我已按照以下教程使用stormcrawler 抓取内容,然后将其存储在elasticsearch 中:https://www.youtube.com/watch?v=KTerugU12TY。但是,我想在每个文档中添加它被抓取的日期。谁能告诉我这是怎么做到的?

一般来说,如何更改爬取内容的字段?

提前致谢

【问题讨论】:

    标签: elasticsearch web-crawler apache-storm stormcrawler


    【解决方案1】:

    一种选择是在 Elasticsearch 中创建一个摄取管道来填充日期字段,如 here 所述。或者,您必须编写一个定制的parse filter 将日期放入元数据中,然后在配置中使用 indexer.md.mapping 对其进行索引。

    让这个操作更简单可能会很有用,请随时在 Github 上打开一个问题(或者更好地提供一些代码),以便 ES 索引器可以检查配置中的字段名称,该字段名称指示存储当前的位置日期,例如es.now.field.

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2015-06-27
      • 1970-01-01
      • 2019-07-02
      • 1970-01-01
      • 2016-06-15
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多