今天小编给大家分享的是现今Oracle高级技术总监的课堂笔记:大数据Hadoop的HA高可用架构集群+分布架构ZooKeeper实战应用,这个课堂笔记需要有一些基础。
(1)Hadoop的体系结构
(2)Spark的体系结构
3、HA:high avaibility高可用性 ----> 解决大数据的单点故障问题
===========================================
一、大数据架构的单点故障问题
1、什么是单点故障?
就是当主节点宕机后,会造成整个集群无法继续使用
2、对大家的要求:画图
二、什么是ZooKeeper(动物园管理员)
1、相当于是一个“数据库”
三、实战:HDFS的HA实现
1、搭建ZooKeeper集群
准备:所有节点
(1)关闭防火墙
systemctl stop firewalld.service
systemctl disable firewalld.service
(2)设置主机名 vi /etc/hosts
192.168.157.12 bigdata12
192.168.157.13 bigdata13
192.168.157.14 bigdata14
(3)安装JDK
目录: /root/training
tar -zxvf jdk-8u144-linux-x64.tar.gz -C ~/training/
设置环境变量
vi ~/.bash_profile
JAVA_HOME=/root/training/jdk1.8.0_144
export JAVA_HOME
PATH=$JAVA_HOME/bin:$PATH
export PATH
生效环境变量 source ~/.bash_profile
(4)配置免密码登录(不对称加密)
ssh-****** -t rsa
ssh-copy-id -i .ssh/id_rsa.pub [email protected]
ssh-copy-id -i .ssh/id_rsa.pub [email protected]
ssh-copy-id -i .ssh/id_rsa.pub [email protected]
2、搭建ZooKeeper集群
(1)首先在bigdata12上搭建
(*) tar -zxvf zookeeper-3.4.10.tar.gz -C ~/training/
设置ZK的环境变量 vi ~/.bash_profile
ZOOKEEPER_HOME=/root/training/zookeeper-3.4.10
export ZOOKEEPER_HOME
PATH=$ZOOKEEPER_HOME/bin:$PATH
export PATH
(*) 修改配置文件: conf/zoo.cfg
数据的保存路径
dataDir=/root/training/zookeeper-3.4.10/tmp
一共有三台机器
2888:通信端口
3888:选举端口
server.1=bigdata12:2888:3888
server.2=bigdata13:2888:3888
server.3=bigdata14:2888:3888
(*) 在/root/training/zookeeper-3.4.10/tmp创建一个文件: myid
(2)把bigdata12上的zk复制到其他节点上
scp -r zookeeper-3.4.10/ [email protected]:/root/training
scp -r zookeeper-3.4.10/ [email protected]:/root/training
(3)修改各自的myid
(4)在每台机器上,启动ZK
zkServer.sh start/status
(5)演示Demo
(*)选举机制
(*)数据同步
3、使用4台机器来搭建
大数据、Python学习资料分享群:596471005,我自己整理的一份最新的适合2018年学习的大数据开发和零基础入门教程已经上传
到群文件。欢迎初学和进阶中的小伙伴。也可以关注我。