hadoop基本认识

还是hadoop专有名词进行说明。

Hadoop框架中最核心设计就是：HDFS和MapReduce.还有yarn

HDFS提供了海量数据的存储。（分布式文件系统）

MapReduce提供了对数据的计算.（分布式计算框架）

Hadoop的集群主要由 NameNode,DataNode,Secondary NameNode,JobTracker,TaskTracker组成.

NameNode中记录了文件是如何被拆分成block以及这些block都存储到了那些DateNode节点.

NameNode同时保存了文件系统运行的状态信息.

DataNode中存储的是被拆分的blocks.

Secondary NameNode帮助NameNode收集文件系统运行的状态信息.

JobTracker当有任务提交到Hadoop集群的时候负责Job的运行,负责调度多个TaskTracker.

TaskTracker负责某一个map或者reduce任务.

其中NameNode，secondary NameNode，JobTracker运行在Master节点上，DataNode和TaskTracker运行在Slave节点上。

后面会写一些hadoop在工作中常用的命令。和hadoop开发上的问题。