【问题标题】:Nutch and solr indexing blacklist domainNutch 和 solr 索引黑名单域
【发布时间】:2016-02-17 06:44:14
【问题描述】:
我正在使用 nutch 1.9 和 solr 4.10。我想避免在 nutch 和 solr 中使用域 www.aaa.com gettign 索引
在 nutch 配置中
conf/domainblacklist-urlfilter.txt 我添加了“www.aaa.com”。在 conf/domain-urlfilter.txt 我添加了“www.bbb.com”
在我添加的 regex-urlfilter.txt 中
+^http://www.bbb.com
-^http://www.aaa.com
但请注意,带有 www.aaa.com 的域仍在获取索引。
有人可以提供有关如何解决此问题的意见
【问题讨论】:
标签:
solr
web-crawler
nutch
【解决方案1】:
为了避免索引一个 url,最简单的解决方案是避免抓取这个 url。
-
将此行添加到 regex-urlfilter.txt:
-^(http|https)://.*aaa.*$
-
在你的 nutch-site.xml 中添加这个配置(我添加了一些额外的插件):
<property>
<name>plugin.includes</name>
<value>protocol-httpclient|urlfilter-regex|parse-(text|tika|js)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)|indexer-solr
</value>
</property>
-
在你的 $NUTCH_HOME 中编译:
ant runtime
如果还不够,这是因为在您的数据库或文件中,您有一些错误的 url。所以删除所有数据库(nutch 2 的 Hbase/Cassandra 和 nutch 1 的分段文件)。之后,重试爬取,就好了。 :)