【问题标题】:How to store the content of the website in the Status Index using StormCrawler?如何使用 StormCrawler 将网站内容存储在状态索引中?
【发布时间】:2018-01-18 00:14:37
【问题描述】:

我们正在尝试将网页的内容与 url、状态和元数据信息一起存储在 状态索引 中。

我们尝试编辑ES_IndexInit.sh 并在“状态”映射部分添加下一个属性:

"content": {
                "type": "text",
                "index": "true",
                "store": true
            }

but we can't see anything in Kibana after crawling process.

我们的猜测是,我们将不得不更改 Storm Crawler 项目中的 Java 源代码,但不知道如何进行。

任何见解都会非常有帮助。提前谢谢你。

【问题讨论】:

    标签: elasticsearch web-crawler kibana stormcrawler


    【解决方案1】:

    内容通常存储在单独的索引中,状态索引主要用于调度 URL 并保存其元数据。它也可能会对性能产生影响。

    如果这是您想要继续的方式,您可以编写一个自定义 ParseFilter 来将文本内容存储在元数据中。像往常一样,您需要将用于存储文本的键添加到列出要保存在状态索引中的元数据的配置条目 (metadata.persist)

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-01-13
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多