【发布时间】:2013-07-10 12:52:27
【问题描述】:
我正在使用 Apache Nutch 抓取网站。在爬行时,我希望 nutch 忽略多个 url 模式,例如 http://www.youtube.com/..so on...、http://www.twitter.com/so on...等。
我知道如何配置 regex-urlfilter.txt 文件来抓取特定的 url。
但我不知道如何配置 nutch 以忽略某些 url 模式?
【问题讨论】:
标签: nutch
我正在使用 Apache Nutch 抓取网站。在爬行时,我希望 nutch 忽略多个 url 模式,例如 http://www.youtube.com/..so on...、http://www.twitter.com/so on...等。
我知道如何配置 regex-urlfilter.txt 文件来抓取特定的 url。
但我不知道如何配置 nutch 以忽略某些 url 模式?
【问题讨论】:
标签: nutch
【讨论】: