【问题标题】:Nutch and solr indexing blacklist domainNutch 和 solr 索引黑名单域
【发布时间】:2016-02-17 06:44:14
【问题描述】:

我正在使用 nutch 1.9 和 solr 4.10。我想避免在 nutch 和 solr 中使用域 www.aaa.com gettign 索引

在 nutch 配置中 conf/domainblacklist-urlfilter.txt 我添加了“www.aaa.com”。在 conf/domain-urlfilter.txt 我添加了“www.bbb.com” 在我添加的 regex-urlfilter.txt 中

+^http://www.bbb.com -^http://www.aaa.com

但请注意,带有 www.aaa.com 的域仍在获取索引。

有人可以提供有关如何解决此问题的意见

【问题讨论】:

    标签: solr web-crawler nutch


    【解决方案1】:

    为了避免索引一个 url,最简单的解决方案是避免抓取这个 url。

    • 将此行添加到 regex-urlfilter.txt:

      -^(http|https)://.*aaa.*$
      
    • 在你的 nutch-site.xml 中添加这个配置(我添加了一些额外的插件):

      <property>
      <name>plugin.includes</name>
      <value>protocol-httpclient|urlfilter-regex|parse-(text|tika|js)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)|indexer-solr
      </value>
      </property>
      
    • 在你的 $NUTCH_HOME 中编译:

      ant runtime
      
    • 如果还不够,这是因为在您的数据库或文件中,您有一些错误的 url。所以删除所有数据库(nutch 2 的 Hbase/Cassandra 和 nutch 1 的分段文件)。之后,重试爬取,就好了。 :)

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2014-08-22
      • 2017-09-17
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-05-26
      • 2019-05-21
      • 1970-01-01
      相关资源
      最近更新 更多