二、Hadoop基础配置（伪分布式）

在学习阶段，先配置一个伪分布式环境来练习实验；由于hadoop适用于大量数据的处理，并不适合少量数据的处理，所以我们建立伪分布式环境（即指分配一个结点来完成所有的工作）

1.目录hadoop2.6.2/etc/hadoop
需要配置的文件（vi命令）
- (1)配置jdk路径
  hadoop-env.sh
  
  yarn-env.sh
- (2)配置NameNode和hadoop工作目录
  
  core-site.xml
  
  第一个property配置的是NameNode信息,即NameNode所在机器以及端口
  第一个property配置hadoop工作目录
- (3)配置副本数、datanode、namenode
  hdfs-site.xml
  namenode 如果不设值，则默认值为$hadoop.tmp.dir/dfs/name
  datanode 如果不设值，则默认值为$hadoop.tmp.dir/dfs.data
  
  在分布式环境中，node1作为管理者，管理namenode
  node2,node3…为各个小结点，管理datanode
  但此处我们只做伪分布式环境，所有node1管理namenode 和datanode
  
  slaves中写哪些做为子结点管理datanode 此处就不用改
- (4)指定运行mapreduce的环境是yarn
  mapred-site.xml
  
  该文件为mapred-site.xml.template; 先用mv将.template去掉（即改名）
  mv mapred-site.xml.template mapred-site.xml
- (5) yarn-site.xml
  
  yarn.resourcemanager.address
  参数解释：ResourceManager 对客户端暴露的地址。客户端通过该地址向RM提交应用程序，杀死应用程序等。
  默认值：${yarn.resourcemanager.hostname}:8032
  端口号需要根据具体环境配置
  其他命令解释可以参考
  https://blog.csdn.net/w182368851/article/details/53707239
2.格式化并启动hadoop
格式化：
hadoop namenode -format
启动：（由于是伪分布式环境，所以选择全部启动即可）
start-all.sh
（看到以下几项即配置完成）