如何设置 nutch 以提取种子文件中仅存在的 url 的内容答案

【问题标题】：how to set nutch to extract content of only urls present on seed file如何设置 nutch 以提取种子文件中仅存在的 url 的内容
【发布时间】：2016-04-17 20:35:28
【问题描述】：

我正在使用 nutch 2.3，我正在尝试获取 seed.txt 文件中存在的一些 url 的 html 内容，我将这些内容传递给 nutch 到 HBase。

所以问题如下---

第一次抓取：一切运行良好，我将数据以 url 作为行键进入 HBase。

第二次运行：当我第二次使用不同的 url 运行爬网时，我看到有很多 url 用于获取作业正在运行，而我的种子文件中只有一个 url。

所以我的问题是如何确保 nutch only 抓取并获取 seed.txt 中存在的 url 的 html 内容，而不是 urls 中存在的 out 链接 html 的 seed.txt 内容

【问题讨论】：

标签： apache web-crawler hbase nutch

【解决方案1】：

我认为您只想获取种子文件中给出的域。对于该更新 nutch-site.xml 如下

  <property>
   <name>db.ignore.external.links</name>
   <value>true</value>
  </property>

【讨论】：

这只会忽略指向外部主机的链接。它不会阻止获取同一域中的页面。
是的，你是对的。我必须自定义 nutch 来实现上述功能

【解决方案2】：

您可以将 crawl 命令的迭代保持为“1”，然后 nutch 将仅爬取 seed.txt 文件中存在的 url。

例如

bin/crawl -i -D solr.server.url=<solrUrl> <seed-dir> <crawl-dir> 1

此外，您可以通过配置 conf 目录中的 regex-urlfilter.txt 来限制外部链接。

#accept anything else
+http://doamin.com

【讨论】：

谢谢你先回复rocksta 我想问你能不能告诉我你想让我在regex-urlfilter.txt中插入的文本是什么意思，你能详细说明一下是什么意思吗？ crawl 命令的含义，因为我不这么认为，我的 crawl 命令处理任何 -i 开关