【发布时间】:2014-08-13 14:41:53
【问题描述】:
我正在 Ubuntu 14.04 x64 (AMD) LTS 上试验 Apache Nutch 1.7 和 Solr,当我尝试运行 Nutch 时,它给我这个错误信息:
错误:未设置 JAVA_HOME。
但是当我在终端上输入 echo $JAVA_HOME 命令时,它给了我这个路径: /usr/lib/jvm/java-7-openjdk-amd64
下面你可以看到我一步一步做了什么。我该如何解决这个问题?
*ps:Ubuntu 是一个在 Mac 上运行带有 Oracle VirtualBox 的虚拟机
- 使用 sudo apt-get -y install openjdk-7-jdk 在终端上安装 java
- 通过java -version命令检查java安装
将 JAVA_HOME 设置为:
sudo nano /etc/environment
然后在文件底部键入以下行:JAVA_HOME="/usr/lib/jvm/java-7-openjdk-amd64"
用于保存更改的 kntrl+X 快捷方式。
然后这个命令:source /etc/environment
现在必须设置 JAVA_HOME。我通过以下命令检查了它,它给了我路径。 echo $JAVA_HOME,输出同上。
然后我通过 sudo apt-get -y install solr-tomcat
安装了 Solr
我通过在浏览器中输入以下地址来控制安装:
http://localhost:8080/solr,它显示了 solr 的初始页面我从 http://nutch.apache.org 下载了 Apache Nutch 1.7,文件名为 apache-nutch-1.7.-bin.tar.gz
然后解压:tar -zxvf apache-nutch-1.7-bin.tar.gz
我只是通过以下方式验证了 Nutch 的安装: cd apache-nutch-1.7 然后 bin/nutch 并且输出类似于 Usage: nutch COMMAND where......
然后我编辑我的 conf/nutch-site.xml 文件,如下所示:Link(您需要在此标题下查看:“3)设置您的Nutch-Site.Xml" ) 我所做的与上次参考不同的是; MyBot 和 MyBot,* 字段。我写了 mySpider
而不是 MyBot
然后我用终端进入 nutch 的 conf 目录。这是我之后所做的: mkdir -p 网址 , cd 网址 , 触摸 seed.txt , 纳米种子.txt
我只是按照nutch官方教程中的建议在文件中写了这个url: http://nutch.apache.org
17在我将更改保存在 seed.txt 文件中之后。我编辑 conf/regex-urlfilter.txt 文件。我删除了这两行:
接受其他任何事情
+。
然后我写了这个而不是他们:
+^http://([a-z0-9]*\.)*nutch.apache.org/
之后,
我按照教程中的建议使用了这个命令: bin/nutch 抓取网址 -dir crawl -depth 3 -topN 5
执行此命令后,我看到以下错误消息: 错误:未设置 JAVA_HOME。
我也找到了这篇文章,但它也没有解决我的问题: Nutch - Getting Error: JAVA_HOME is not set. when trying to crawl
【问题讨论】:
标签: apache nutch web-crawler java-home