【问题标题】:Nutch/Elastic Search terms definitionNutch/Elastic 搜索术语定义
【发布时间】:2021-01-06 16:27:50
【问题描述】:

我使用 nutch 和 Elastisearch 抓取/解析 99 个网站/链接,以便在 Elasicsearch 中对它们进行索引,以便我可以使用搜索引擎。它确实抓取了所有 99 个网站/链接,但我得到的最终消息如下。我想了解重定向、添加/更新是什么意思?是否有可能找出哪些已经消失并重定向?

Indexer: number of documents indexed, deleted, or skipped:
Indexer:      5  deleted (gone)
Indexer:      8  deleted (redirects)
Indexer:     76  indexed (add/update)
Indexer: finished at 2020-12-17 13:07:19, elapsed: 00:00:08

【问题讨论】:

  • 这个消息是爬虫第一次运行还是之前运行过?

标签: parsing elasticsearch solr web-crawler nutch


【解决方案1】:

Nutch 不知道某个页面是否已经在索引中。为了使索引和爬取的内容保持同步,

  • 成功获取的页面将发送到索引并计为添加或更新
  • (使用索引器选项-deleteGone)404 秒和其他失败的提取将从索引中删除并计为“已删除”
  • 与重定向相同,但单独计为“重定向”

如果有可能找出哪些已经消失并重定向?

您可以使用 Nutch 工具

  • readdb 转储 CrawlDb
  • readseg 转储被索引的段

然后搜索 404、获取失败、重定向等。分别调用 bin/nutch readdbbin/nutch readseg 将显示所有可用的命令行选项。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-08-09
    • 2012-11-29
    • 2014-11-18
    • 2011-02-11
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多