【发布时间】:2021-01-06 16:27:50
【问题描述】:
我使用 nutch 和 Elastisearch 抓取/解析 99 个网站/链接,以便在 Elasicsearch 中对它们进行索引,以便我可以使用搜索引擎。它确实抓取了所有 99 个网站/链接,但我得到的最终消息如下。我想了解重定向、添加/更新是什么意思?是否有可能找出哪些已经消失并重定向?
Indexer: number of documents indexed, deleted, or skipped:
Indexer: 5 deleted (gone)
Indexer: 8 deleted (redirects)
Indexer: 76 indexed (add/update)
Indexer: finished at 2020-12-17 13:07:19, elapsed: 00:00:08
【问题讨论】:
-
这个消息是爬虫第一次运行还是之前运行过?
标签: parsing elasticsearch solr web-crawler nutch