大数据云盘核心技术：分布式文件系统的高级特性及实战，甲骨文技术总监整理！

一、什么是大数据？大数据的核心问题
举例：
1、商品推荐信息问题1：大量的订单如何存储？
问题2：大量的订单如何计算？
2、天气预报问题1：大量的天气数据如何存储？
问题2：大量的天气数据如何计算？

大数据的核心问题：1、数据的存储：分布式的文件系统
2、数据的计算：分布式的计算模型

二、分布式文件系统的原理和体系架构（重要）

三、实战：搭建Hadoop分布式文件系统---HDFS
1、准备：实验环境
（*）Linux：Redhat Linux 7.4 64位
（*）JDK 1.8 64位
（*）Hadoop 2.7.3 = HDFS + Yarn

2、配置Linux
（*）关闭防火墙
systemctl stop firewalld.service
systemctl disable firewalld.service
（*）配置主机名 vi /etc/hosts
192.168.157.81 mydemo81

3、安装JDK
(*)解压 tar -zxvf jdk-8u144-linux-x64.tar.gz -C ~/training/
(*) 设置环境变量 vi ~/.bash_profile
JAVA_HOME=/root/training/jdk1.8.0_144
export JAVA_HOME

PATH=$JAVA_HOME/bin:$PATH
export PATH

(*) 生效环境变量 source ~/.bash_profile

4、安装配置Hadoop（HDFS+Yarn）
(*) 解压、设置Hadoop的环境变量
tar -zxvf hadoop-2.7.3.tar.gz -C ~/training/
vi ~/.bash_profile 配置文件
HADOOP_HOME=/root/training/hadoop-2.7.3
export HADOOP_HOME

PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export PATH
生效

(*) 配置文件: $HADOOP_HOME/etc/hadoop
参考VIP课程讲义
hadoop-env.sh
export JAVA_HOME=/root/training/jdk1.8.0_144

hdfs-site.xml


<property>
<name>dfs.replication</name>
<value>1</value>
</property>


<property>
<name>dfs.permissions</name>
<value>false</value>
</property>

core-site.xml

<property>
<name>fs.defaultFS</name>
<value>hdfs://mydemo81:9000</value>
</property>


<property>
<name>hadoop.tmp.dir</name>
<value>/root/training/hadoop-2.7.3/tmp</value>
</property>

下面的两个是配置MapReduce和Yarn的

mapred-site.xml
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

yarn-site.xml
<property>
<name>yarn.resourcemanager.hostname</name>
<value>mydemo81</value>
</property>

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

(*) 对NameNode进行格式化
hdfs namenode -format

日志：
Storage directory /root/training/hadoop-2.7.3/tmp/dfs/name has been successfully formatted.

(*) 启动Hadoop: HDFS Yarn
start-all.sh
start-dfs.sh
start-yarn.sh

四、实战：操作HDFS

Web Console: http://ip:50070

另外，在这里相信有许多想要学习大数据的同学，大家可以加大数据交流 766，988，146——我刚整理了一份大数据2018最新的0基础入门和进阶教程，无私分享。