【发布时间】:2014-08-22 13:31:50
【问题描述】:
我在 Linux 服务器上运行 Nutch 时遇到了一些问题。我正在尝试抓取在 seed.txt 中配置的 URL,但我看到了以下错误。爬虫触发如下
nohup java -classpath "./common-conf/*:*:./plugins/*:" -jar crawler-jar-2.0-SNAPSHOT.jar &
在此配置中,所有配置属性都存在于 common-conf 目录中。我们在 Crawler 二进制文件中设置了一些自定义配置。因此,我们构建了一个自定义二进制文件,并且不使用标准的 Apache nutch 爬虫。我看到以下问题:
-
我们的自定义 nutch-default.xml 和 nutch-site.xml 不是从 common-conf 类路径目录中选取的。它们是从 nutch jar 文件中提取的。当我打印出这两个 xml 的 URL 路径时,我看到了类似这样的内容
nutch 默认 = jar:file:/home/nbsxlwa/crawler/lib/nutch-2.2.1.jar!/nutch-default.xml nutch 网站 = jar:file:/home/nbsxlwa/crawler/lib/nutch-2.2.1.jar!/nutch-site.xml
我希望从类路径中提取文件。我可以验证文件是否存在。
-
我们的自定义 gora.properties 没有被提取。我看到以下日志跟踪
14/08/22 07:18:24 WARN store.DataStoreFactory:找不到 gora.properties,属性将为空。 14/08/22 07:18:24 INFO crawl.InjectorJob: InjectorJob: 使用类 org.apache.gora.memory.store.MemStore 作为 Gora 存储类。
gora.properties 存在于类路径中,我不确定为什么它没有被拾取。
/home/nbsxlwa/crawler/ find . -name "gora.properties" ./common-conf/gora.properties -
http.agent.name 配置属性未被拾取。我可以确认配置存在于 nutch-site.xml 中
堆栈跟踪如下。
14/08/22 07:18:36 ERROR fetcher.FetcherJob: Fetcher: No agents listed in 'http.agent.name' property. 14/08/22 07:18:36 WARN crawl.Crawler: Error running crawler job for configuration. Tool run command raises an exception java.lang.IllegalArgumentException: Fetcher: No agents listed in 'http.agent.name' property. at org.apache.nutch.fetcher.FetcherJob.checkConfiguration(FetcherJob.java:252) at org.apache.nutch.fetcher.FetcherJob.run(FetcherJob.java:160) at org.apache.nutch.crawl.Crawler.runTool(Crawler.java:78) at org.apache.nutch.crawl.Crawler.run(Crawler.java:176) at org.apache.nutch.crawl.Crawler.run(Crawler.java:266) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) at org.apache.nutch.crawl.Crawler.main(Crawler.java:356) -
regex-normalize.xml 和 regex-urlfilter.txt 未从类路径中获取。我可以确认这些文件存在于我的类路径中。堆栈跟踪如下所示
/home/nbsxlwa/crawler : find . -name "regex-normalize.xml" ./common-conf/regex-normalize.xml /home/nbsxlwa/crawler : find . -name "regex-urlfilter.txt" ./common-conf/regex-urlfilter.txt 14/08/22 07:18:29 INFO conf.Configuration: regex-normalize.xml not found 14/08/22 07:18:29 WARN regex.RegexURLNormalizer: Can't load the default rules! 14/08/22 07:18:29 INFO conf.Configuration: regex-urlfilter.txt not found 14/08/22 07:18:29 INFO conf.Configuration: regex-normalize.xml not found 14/08/22 07:18:29 WARN regex.RegexURLNormalizer: Can't load the default rules!
我已经浏览了以下链接,看看我哪里出错了。如何在此处设置 Nutch 配置设置?
【问题讨论】:
标签: java nutch web-crawler