Nutch 2.X - 要获取的首选网址

【问题标题】：Nutch 2.X - Prefered urls to fetchNutch 2.X - 要获取的首选网址
【发布时间】：2013-09-28 15:29:11
【问题描述】：

我有这种情况：我的种子中有超过 160 个 URL。一周前我开始爬行。现在我在我的存储中抓取了很多页面，但我可以在我的 Solr 索引中看到种子中的一些 URL 根本没有被抓取（这些 URL 没有来自 robots.txt 的一些限制）或者只有很少的数量。是否可以告诉 Nutch 偏爱某些 URL？

【问题讨论】：

标签： solr web-crawler nutch

【解决方案1】：

您检查过TopN 的值吗？还是 Nutch 还在爬行？因为索引和向 solr 发送数据是在进程结束时完成的！

【讨论】：

这不是问题。问题是一些 URL 在 Solr 中有例如 1500 个索引文档，而一些 URL 只有 15、20 ......而且其中很多只有 0 个文档。我不知道为什么...不是因为robotx.txt或某些禁令...
查看TopN！我认为它是有限的！将其设置为 -1！

猜你喜欢

2019-04-21
1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01

相关资源

下载 2023-03-05
下载 2021-06-05
下载 2022-12-30
下载 2023-01-26

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode