【问题标题】:How to configure Apache Nutch to ignore certain url patterns如何配置 Apache Nutch 以忽略某些 url 模式
【发布时间】:2013-07-10 12:52:27
【问题描述】:

我正在使用 Apache Nutch 抓取网站。在爬行时,我希望 nutch 忽略多个 url 模式,例如 http://www.youtube.com/..so on...、http://www.twitter.com/so on...等。

我知道如何配置 regex-urlfilter.txt 文件来抓取特定的 url。

但我不知道如何配置 nutch 以忽略某些 url 模式?

【问题讨论】:

    标签: nutch


    【解决方案1】:

    【讨论】:

    • 链接已经失效,感觉它重定向到主页。
    猜你喜欢
    • 2016-02-25
    • 2021-04-23
    • 1970-01-01
    • 2012-09-15
    • 1970-01-01
    • 2016-05-22
    • 1970-01-01
    • 1970-01-01
    • 2021-08-08
    相关资源
    最近更新 更多