在学习阶段,先配置一个伪分布式环境来练习实验;由于hadoop适用于大量数据的处理,并不适合少量数据的处理,所以我们建立伪分布式环境(即指分配一个结点来完成所有的工作)
- 1.目录hadoop2.6.2/etc/hadoop
需要配置的文件(vi命令)-
(1)配置jdk路径
hadoop-env.sh
yarn-env.sh -
(2)配置NameNode和hadoop工作目录
core-site.xml
第一个property配置的是NameNode信息,即NameNode所在机器以及端口
第一个property配置hadoop工作目录 -
(3)配置副本数、datanode、namenode
hdfs-site.xml
namenode 如果不设值,则默认值为$hadoop.tmp.dir/dfs/name
datanode 如果不设值,则默认值为$hadoop.tmp.dir/dfs.data在分布式环境中,node1作为管理者,管理namenode
node2,node3…为各个小结点,管理datanode
但此处我们只做伪分布式环境,所有node1管理namenode 和datanodeslaves中写哪些做为子结点管理datanode 此处就不用改
-
(4)指定运行mapreduce的环境是yarn
mapred-site.xml该文件为mapred-site.xml.template; 先用mv将.template去掉(即改名)
mv mapred-site.xml.template mapred-site.xml -
(5) yarn-site.xml
yarn.resourcemanager.address
参数解释:ResourceManager 对客户端暴露的地址。客户端通过该地址向RM提交应用程序,杀死应用程序等。
默认值:${yarn.resourcemanager.hostname}:8032
端口号需要根据具体环境配置
其他命令解释可以参考
https://blog.csdn.net/w182368851/article/details/53707239
-
- 2.格式化并启动hadoop
格式化:
hadoop namenode -format
启动:(由于是伪分布式环境,所以选择全部启动即可)
start-all.sh
(看到以下几项即配置完成)