NUTCH 1.13 获取 url 失败：org.apache.nutch.protocol.ProtocolNotFound：未找到 url=http 的协议答案

【问题标题】：NUTCH 1.13 fetch of url failed with: org.apache.nutch.protocol.ProtocolNotFound: protocol not found for url=httpNUTCH 1.13 获取 url 失败：org.apache.nutch.protocol.ProtocolNotFound：未找到 url=http 的协议
【发布时间】：2017-08-31 14:11:23
【问题描述】：

获取 httpurl 失败： org.apache.nutch.protocol.ProtocolNotFound：找不到协议网址=http 在 org.apache.nutch.protocol.ProtocolFactory.getProtocol(ProtocolFactory.java:85) 在 org.apache.nutch.fetcher.FetcherThread.run(FetcherThread.java:285)

使用队列模式：byHost 获取 httpsurl 失败：org.apache.nutch.protocol.ProtocolNotFound：未找到 url=https 的协议在 org.apache.nutch.protocol.ProtocolFactory.getProtocol(ProtocolFactory.java:85) 在 org.apache.nutch.fetcher.FetcherThread.run(FetcherThread.java:285)

我在使用 solr6.6.0 运行 nutch1.13 时得到了上述结果

我使用的命令是

bin/crawl -i -D solr.server.url=http://myip/solr/nutch/urls/爬取2

下面是我的 nutch-site.xml 中的插件部分

  <name>plugin.includes</name>
  <value>
protocol-(http|httpclient)|urlfilter-regex|parse-(html)|index-(basic|anchor)|indexer-solr|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)
</value>

以下是我的文件内容

    [root@localhost apache-nutch-1.13]# ls plugins
creativecommons      index-more           nutch-extensionpoints   protocol-file                 scoring-similarity         urlnormalizer-ajax
feed                 index-replace        parse-ext               protocol-ftp                  subcollection              urlnormalizer-basic
headings             index-static         parsefilter-naivebayes  protocol-htmlunit             tld                        urlnormalizer-host
index-anchor         language-identifier  parsefilter-regex       protocol-http                 urlfilter-automaton        urlnormalizer-pass
index-basic          lib-htmlunit         parse-html              protocol-httpclient           urlfilter-domain           urlnormalizer-protocol
indexer-cloudsearch  lib-http             parse-js                protocol-interactiveselenium  urlfilter-domainblacklist  urlnormalizer-querystring
indexer-dummy        lib-nekohtml         parse-metatags          protocol-selenium             urlfilter-ignoreexempt     urlnormalizer-regex
indexer-elastic      lib-regex-filter     parse-replace           publish-rabbitmq              urlfilter-prefix           urlnormalizer-slash
indexer-solr         lib-selenium         parse-swf               publish-rabitmq               urlfilter-regex
index-geoip          lib-xml              parse-tika              scoring-depth                 urlfilter-suffix
index-links          microformats-reltag  parse-zip               scoring-link                  urlfilter-validator
index-metadata       mimetype-filter      plugin                  scoring-opic                  urlmeta

我被这个问题困住了。如您所见，我已经包含了两个协议-(http|httpclient)。但是仍然获取 url 失败。提前致谢。

新问题 hadoop.log

2017-09-01 14:35:07,172 信息 solr.SolrIndexWriter - SolrIndexer：删除 1/1 文档 2017-09-01 14:35:07,321 警告 output.FileOutputCommitter - cleanupJob() 中的输出路径为空 2017-09-01 14:35:07,323 警告 mapred.LocalJobRunner - job_local1176811933_0001 java.lang.Exception： java.lang.IllegalStateException：连接池在 org.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.java:462) 在 org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:529) 引起：java.lang.IllegalStateException：连接池关闭在 org.apache.http.util.Asserts.check(Asserts.java:34) 在 org.apache.http.pool.AbstractConnPool.lease(AbstractConnPool.java:169) 在 org.apache.http.pool.AbstractConnPool.lease(AbstractConnPool.java:202) 在 org.apache.http.impl.conn.PoolingClientConnectionManager.requestConnection(PoolingClientConnectionManager.java:184) 在 org.apache.http.impl.client.DefaultRequestDirector.execute（DefaultRequestDirector.java:415）在 org.apache.http.impl.client.AbstractHttpClient.doExecute(AbstractHttpClient.java:863) 在 org.apache.http.impl.client.CloseableHttpClient.execute(CloseableHttpClient.java:82) 在 org.apache.http.impl.client.CloseableHttpClient.execute(CloseableHttpClient.java:106) 在 org.apache.http.impl.client.CloseableHttpClient.execute(CloseableHttpClient.java:57) 在 org.apache.solr.client.solrj.impl.HttpSolrClient.executeMethod(HttpSolrClient.java:481) 在 org.apache.solr.client.solrj.impl.HttpSolrClient.request(HttpSolrClient.java:240) 在 org.apache.solr.client.solrj.impl.HttpSolrClient.request(HttpSolrClient.java:229) 在 org.apache.solr.client.solrj.SolrRequest.process(SolrRequest.java:149) 在 org.apache.solr.client.solrj.SolrClient.commit(SolrClient.java:482) 在 org.apache.solr.client.solrj.SolrClient.commit(SolrClient.java:463) 在 org.apache.nutch.indexwriter.solr.SolrIndexWriter.commit(SolrIndexWriter.java:191) 在 org.apache.nutch.indexwriter.solr.SolrIndexWriter.close(SolrIndexWriter.java:179) 在 org.apache.nutch.indexer.IndexWriters.close（IndexWriters.java:117）在 org.apache.nutch.indexer.CleaningJob$DeleterReducer.close（CleaningJob.java:122）在 org.apache.hadoop.io.IOUtils.cleanup(IOUtils.java:244) 在 org.apache.hadoop.mapred.ReduceTask.runOldReducer(ReduceTask.java:459) 在 org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:392) 在 org.apache.hadoop.mapred.LocalJobRunner$Job$ReduceTaskRunnable.run(LocalJobRunner.java:319) 在 java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) 在 java.util.concurrent.FutureTask.run(FutureTask.java:266) 在 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) 在 java.lang.Thread.run(Thread.java:748) 2017-09-01 14:35:07,679 错误 indexer.CleaningJob - CleaningJob: java.io.IOException: Job 失败的！在 org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:865) 在 org.apache.nutch.indexer.CleaningJob.delete(CleaningJob.java:174) 在 org.apache.nutch.indexer.CleaningJob.run(CleaningJob.java:197) 在 org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) 在 org.apache.nutch.indexer.CleaningJob.main(CleaningJob.java:208)

【问题讨论】：

您是否尝试仅使用 protocol-http 获取它？
是的。仍然是提取失败。我必须在其他地方包含插件吗
能否粘贴以下输出：bin/nutch parsechecker your_url
[root@localhost apache-nutch-1.13]# bin/nutch parsechecker 183.134.100.180:8983/solr/nutch fetching: 183.134.100.180:8983/solr/nutch 线程“main” org.apache.nutch.protocol.ProtocolNotFound 中的异常：找不到协议对于 org.apache.nutch.protocol.ProtocolFactory.getProtocol(ProtocolFactory.java:85) 的 url=http，在 org.apache.nutch.parse.ParserChecker.run(ParserChecker.java:136) 在 org.apache.hadoop.util .ToolRunner.run(ToolRunner.java:70) at org.apache.nutch.parse.ParserChecker.main(ParserChecker.java:267)
[root@localhost apache-nutch-1.13]# bin/nutch parsechecker theguardian.com/media/bbc fetching: theguardian.com/media/bbc 线程“main” org.apache.nutch.protocol.ProtocolNotFound 中的异常：找不到协议对于 org.apache.nutch.protocol.ProtocolFactory.getProtocol(ProtocolFactory.java:85) 的 url=https org.apache.nutch.parse.ParserChecker.run(ParserChecker.java:136) 的 org.apache.hadoop.util .ToolRunner.run(ToolRunner.java:70) at org.apache.nutch.parse.ParserChecker.main(ParserChecker.java:267)

标签： solr centos nutch

【解决方案1】：

我以某种方式解决了这个问题。我认为 nutch-site.xml 中的空间会导致新的 plugin.includes 部分出现问题。

      <name>plugin.includes</name>
  <value>protocol-http|protocol-httpclient|urlfilter-regex|parse-(html)|index-(basic|anchor)|indexer-solr|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)</value>

【讨论】：

我遇到了一个新问题 [root@localhost apache-nutch-1.13]# bin/nutch clean crawl/crawldb/ 183.134.100.180:8983/solr/nutch SolrIndexer: 删除 1/1 文档 SolrIndexer: 删除 1/1 文档错误清洁作业：java.io.IOException：作业失败！在 org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:865) 在 org.apache.nutch.indexer.CleaningJob.delete(CleaningJob.java:174) 在 org.apache.nutch.indexer.CleaningJob.run (CleaningJob.java:197) 在 org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) 在 org.apache.nutch.indexer.CleaningJob.main(CleaningJob.java:208)
这个跟踪来自 hadoop.log 吗？
hadoop 跟踪作为问题编辑给出，因为错误太长.. 以上是我在终端上运行的命令，但返回错误