Nutch 和 solr 索引黑名单域答案

【问题标题】：Nutch and solr indexing blacklist domainNutch 和 solr 索引黑名单域
【发布时间】：2016-02-17 06:44:14
【问题描述】：

我正在使用 nutch 1.9 和 solr 4.10。我想避免在 nutch 和 solr 中使用域 www.aaa.com gettign 索引

在 nutch 配置中 conf/domainblacklist-urlfilter.txt 我添加了“www.aaa.com”。在 conf/domain-urlfilter.txt 我添加了“www.bbb.com” 在我添加的 regex-urlfilter.txt 中

+^http://www.bbb.com -^http://www.aaa.com

但请注意，带有 www.aaa.com 的域仍在获取索引。

有人可以提供有关如何解决此问题的意见

【问题讨论】：

标签： solr web-crawler nutch

【解决方案1】：

为了避免索引一个 url，最简单的解决方案是避免抓取这个 url。

将此行添加到 regex-urlfilter.txt：
```
-^(http|https)://.*aaa.*$
```

在你的 nutch-site.xml 中添加这个配置（我添加了一些额外的插件）：

<property>
<name>plugin.includes</name>
<value>protocol-httpclient|urlfilter-regex|parse-(text|tika|js)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)|indexer-solr
</value>
</property>

在你的 $NUTCH_HOME 中编译：
```
ant runtime
```
如果还不够，这是因为在您的数据库或文件中，您有一些错误的 url。所以删除所有数据库（nutch 2 的 Hbase/Cassandra 和 nutch 1 的分段文件）。之后，重试爬取，就好了。 :)

【讨论】：