【发布时间】:2016-04-17 20:35:28
【问题描述】:
我正在使用 nutch 2.3,我正在尝试获取 seed.txt 文件中存在的一些 url 的 html 内容,我将这些内容传递给 nutch 到 HBase。
所以问题如下---
第一次抓取: 一切运行良好,我将数据以 url 作为行键进入 HBase。
第二次运行: 当我第二次使用不同的 url 运行爬网时,我看到有很多 url 用于获取作业正在运行,而我的种子文件中只有一个 url。
所以我的问题是如何确保 nutch only 抓取并获取 seed.txt 中存在的 url 的 html 内容,而不是 urls 中存在的 out 链接 html 的 seed.txt 内容
【问题讨论】:
标签: apache web-crawler hbase nutch