在学习阶段,先配置一个伪分布式环境来练习实验;由于hadoop适用于大量数据的处理,并不适合少量数据的处理,所以我们建立伪分布式环境(即指分配一个结点来完成所有的工作)

  • 1.目录hadoop2.6.2/etc/hadoop
    需要配置的文件(vi命令)
    • (1)配置jdk路径
      hadoop-env.sh
      二、Hadoop基础配置(伪分布式)
      yarn-env.sh
      二、Hadoop基础配置(伪分布式)

    • (2)配置NameNode和hadoop工作目录

      core-site.xml
      二、Hadoop基础配置(伪分布式)
      第一个property配置的是NameNode信息,即NameNode所在机器以及端口
      第一个property配置hadoop工作目录

    • (3)配置副本数、datanode、namenode
      hdfs-site.xml二、Hadoop基础配置(伪分布式)
      namenode 如果不设值,则默认值为$hadoop.tmp.dir/dfs/name
      datanode 如果不设值,则默认值为$hadoop.tmp.dir/dfs.data

      在分布式环境中,node1作为管理者,管理namenode
      node2,node3…为各个小结点,管理datanode
      但此处我们只做伪分布式环境,所有node1管理namenode 和datanode

      slaves中写哪些做为子结点管理datanode 此处就不用改

    • (4)指定运行mapreduce的环境是yarn
      mapred-site.xml

      该文件为mapred-site.xml.template; 先用mv将.template去掉(即改名)
      mv mapred-site.xml.template mapred-site.xml

      二、Hadoop基础配置(伪分布式)

    • (5) yarn-site.xml

      yarn.resourcemanager.address
      参数解释:ResourceManager 对客户端暴露的地址。客户端通过该地址向RM提交应用程序,杀死应用程序等。
      默认值:${yarn.resourcemanager.hostname}:8032
      端口号需要根据具体环境配置
      其他命令解释可以参考
      https://blog.csdn.net/w182368851/article/details/53707239

      二、Hadoop基础配置(伪分布式)

  • 2.格式化并启动hadoop
    格式化:
    hadoop namenode -format
    启动:(由于是伪分布式环境,所以选择全部启动即可)
    start-all.sh
    (看到以下几项即配置完成)二、Hadoop基础配置(伪分布式)

相关文章: