Hadoop学习笔记

1.Hadoop安装

Apache的国内镜像地址:

地址1:http://mirror.bit.edu.cn/apache/

地址2:https://mirrors.tuna.tsinghua.edu.cn/apache

Fuck CSDN,谁给你的权利把开源的东西作为商品(下载积分)售卖?

Hadoop安装教程

2.HDFS(Hadoop Distributed File System)

2.1 HDFS基本概念

HDFS的文件被分成块(Block)进行存储,HDFS块默认大小是64MB,块是整个文件存储处理的逻辑单元

HDFS中有两类节点NameNode和DataNode

namenode:

是管理节点,存放文件元数据

元数据包含两个部分:

  1. 文件与数据块的映射表

  2. 数据块与数据节点的映射表

datanode:

是hdfs的工作节点,存放数据块

Hadoop学习笔记

2.2 数据管理策略

1.每个数据保留三份,两份存储在一台机器上,另外一份存储在另一台机器上。确保数据安全可靠

Hadoop学习笔记

2.心跳检测

DataNode定期向NameNode发送心跳检测,是否宕机,挂掉,作为安全检测;

Hadoop学习笔记

3.二级NameNode

当NameNode挂掉SecondaryNameNode会替代其位置

2.3 HDFS读取文件流程

客户端发送文件读请求——>namenode返回元数据(从哪些datanode找到)——>客户端读取block,下载下来之后组装;

Hadoop学习笔记

 

客户端文件拆分成block——>通知namenode返回可用的、有足够磁盘空间的datanode——>客户端对block进行写入——>流水线复制——>更新元数据 ;

 Hadoop学习笔记

3.MapReduce

3.1 MapReduce的原理

 mapReduce:分而治之的原理,既将大的任务分解成各个小的任务,既所谓的map,然后将各个小任务的处理结果进行合并,合并汇总称之为reduce.

1、mapreduce是一个并行计算的框架;

2、map将任务分解成多个子任务,reduce将子任务并行执行后合并结果;

3、mapreduce的过程:input split->shuffle->output。

Hadoop学习笔记

Hadoop学习笔记

 

 

3.2 MapReduce的运行流程

MapReduce作业执行过程

Hadoop学习笔记

MapReduce 容错机制

  1. 重复执行,一次任务失败,会进行重试,4次
  2. 推测执行,单个任务执行慢时,推测其可能出现故障,再另起一个同样的任务,并行执行,哪个先执行完使用哪个

JobTracker 功能职责

  1. 作业调度
  2. 分配任务,监控任务执行进度
  3. 监控TaskTracker的状态

4.YARN

(Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

Hadoop学习笔记

 

5.Hadpoop生态

Hadoop学习笔记

 

posted @ 2018-10-24 11:36 Rest探路者 阅读(...) 评论(...) 编辑 收藏

相关文章:

  • 2022-12-23
  • 2021-08-31
  • 2021-12-27
  • 2021-09-12
  • 2021-07-21
猜你喜欢
  • 2022-12-23
  • 2021-08-14
相关资源
相似解决方案