首先献上Hadoop下载地址:
http://apache.fayea.com/hadoop/core/
选择相应版本,点一下,直接进行http下载了。
对原来写的一篇文章,相当不满意,过于粗糙了,于是删除重新再来。言归正传:
题前说明:
我一共三台机器,机器名分别是:
master
slave1
slave2
登录名统一是:master
我先在master机器上执行以下操作:
一、解压缩
这里需要说明下,根据网上的教程,解压缩后,把文件copy到/usr/目录下。在master机器启动的时候,一直提示,对于slave1和slave2机器操作无权限,类似于下面的提示:
slave2: /usr/hadoop/sbin/hadoop-daemon.sh: line 178: /usr/hadoop/logs/hadoop-master-datanode-slave2.out: Permission denied
个人分析,/usr目录的所有者是root,而我安装hadoop的账户是master(ps:这个名字起的有点糟糕,和主机器名重了),这样,尽管里面的hadoop目录的所有者是master,也访问失败。于是我把hadoop目录整个移到了~/work文件夹下(work是自己建的目录)。所以,个人建议,还是把工作目录建在个人目录下,比较不容易出现权限类的问题,当然,仅仅针对我这种linux新手来说的。
tip:
解压缩命令:tar -zxvf hadoop-2.7.0.tar.gz
解压出来的文件是hadoop-2.7.0
copy命令:cp -r hadoop-2.7.0 ~/work/hadoop 这里直接重命名为hadoop
二、创建工作文件夹
一共三个,我建在了~/hadoop/这个文件夹下,便于管理:
附命令:
cd ~/hadoop
mkdir tmp
mkdir -p dfs/name
cd dfs
mkdir data
三、重头戏,配置
从教程里看到一共有以下7个文件,目前还不了解他们的作用,后续补充:
2、vi ~/work/hadoop/etc/hadoop/yarn-env.sh
配置内容同1,略。
3、vi ~/work/hadoop/etc/hadoop/slaves
把作为datanode的机器名加上,我这里是两台机器:
slave1
slave2
4、vi ~/work/hadoop/etc/hadoop/core-site.xml
这里要吐槽一下,gedit命令不能用,这个vi编辑好累。
1 <configuration> 2 <property> 3 <name>fs.defaultFS</name> 4 <value>hdfs://master:8020</value> 5 </property> 6 <property> 7 <name>io.file.buffer.size</name> 8 <value>131072</value> 9 </property> 10 <property> 11 <name>hadoop.tmp.dir</name> 12 <value>file:/home/master/hadoop/tmp</value> 13 <description>Abase for other temporary directories.</description> 14 </property> 15 <property> 16 <name>hadoop.proxyuser.master.hosts</name> 17 <value>*</value> 18 </property> 19 <property> 20 <name>hadoop.proxyuser.master.groups</name> 21 <value>*</value> 22 </property> 23 </configuration>