Hadoop【4】- HDFS入门（二）基本原理

HDFS基本原理

1、NameNode概述

NameNode是HDFS的核心。
NameNode也称为Master。
NameNode仅存储HDFS的元数据：文件系统中的所有文件的目录树，并跟踪整个集群中的文件。
NameNode不存储实际数据或数据集。数据本身实际存储在DataNode中。
NameNode知道HDFS中任何给定文件的块列表及其位置。使用此信息NameNOde知道如何从块中构建文件。
NameNode并不持久化存储每个文件中各个块所在的DataNode的位置信息，这些信息会在系统启动时从数据节点重建。
NameNode对HDFS至关重要，当NameNode关闭时， HDFS/Hadoop集群无法访问。
NameNode是Hadoop集群中的单点故障。
NameNode是所有机器通常会配置有大量内存（RAM）。

Hadoop【4】- HDFS入门（二）基本原理

2、DataNode概述

DataNode复制将实际数据存储在HDFS中。
DataNode也称为Slave。
NameNode和DataNode会不断通信。
DataNode启动时，它将自己发布到NameNode并汇报自己负责持有的块列表。
当某个DataNode关闭时，它不会影响数据或集群的可用性，NameNode将安排由其它DataNode管理的块进行副本复制。
DataNode所在机器通常配置有大量的磁盘空间，因为实际数据存储在DataNode中。
DataNode会定期（dfs.heartbeat,interval 配置项配置，默认是3秒）向NameNode发送心跳，如果NameNode长时间没有接受DataNode发送的心跳， NameNode就认为该DataNode失效。
block汇报时间间隔参数dfs.blockreport.intervalMsec,参数未配置的话默认6小时。

参考文献
【1】腾讯课堂-大数据hadoop入门

相关文章：

2022-12-23
2021-11-26
2021-07-31
2021-12-07
2021-12-15
2021-08-07

猜你喜欢

2021-05-05
2021-05-07
2021-07-20
2021-08-03
2021-07-16
2022-12-23
2021-05-13

相关资源

下载 2021-06-27
下载 2022-12-22
下载 2023-01-07

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode