举例:
1、商品推荐信息 问题1:大量的订单如何存储?
问题2:大量的订单如何计算?
2、天气预报 问题1:大量的天气数据如何存储?
问题2:大量的天气数据如何计算?
大数据的核心问题:1、数据的存储:分布式的文件系统
2、数据的计算:分布式的计算模型
二、分布式文件系统的原理和体系架构(重要)
三、实战:搭建Hadoop分布式文件系统---HDFS
1、准备:实验环境
(*)Linux:Redhat Linux 7.4 64位
(*)JDK 1.8 64位
(*)Hadoop 2.7.3 = HDFS + Yarn
2、配置Linux
(*)关闭防火墙
systemctl stop firewalld.service
systemctl disable firewalld.service
(*)配置主机名 vi /etc/hosts
192.168.157.81 mydemo81
3、安装JDK
(*)解压 tar -zxvf jdk-8u144-linux-x64.tar.gz -C ~/training/
(*) 设置环境变量 vi ~/.bash_profile
JAVA_HOME=/root/training/jdk1.8.0_144
export JAVA_HOME
PATH=$JAVA_HOME/bin:$PATH
export PATH
(*) 生效环境变量 source ~/.bash_profile
4、安装配置Hadoop(HDFS+Yarn)
(*) 解压、设置Hadoop的环境变量
tar -zxvf hadoop-2.7.3.tar.gz -C ~/training/
vi ~/.bash_profile 配置文件
HADOOP_HOME=/root/training/hadoop-2.7.3
export HADOOP_HOME
PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export PATH
生效
(*) 配置文件: $HADOOP_HOME/etc/hadoop
参考VIP课程讲义
hadoop-env.sh
export JAVA_HOME=/root/training/jdk1.8.0_144
hdfs-site.xml
<!--数据块的冗余度,默认3-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<!--是否开启HDFS的权限检查,默认true-->
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
core-site.xml
<!--管理员NameNode的地址-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://mydemo81:9000</value>
</property>
<!--HDFS的数据在Linux的保存路径,默认是Linux的tmp目录-->
<property>
<name>hadoop.tmp.dir</name>
<value>/root/training/hadoop-2.7.3/tmp</value>
</property>
下面的两个是配置MapReduce和Yarn的
mapred-site.xml
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
yarn-site.xml
<property>
<name>yarn.resourcemanager.hostname</name>
<value>mydemo81</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
(*) 对NameNode进行格式化
hdfs namenode -format
日志:
Storage directory /root/training/hadoop-2.7.3/tmp/dfs/name has been successfully formatted.
(*) 启动Hadoop: HDFS Yarn
start-all.sh
start-dfs.sh
start-yarn.sh
四、实战:操作HDFS
Web Console: http://ip:50070
另外,在这里相信有许多想要学习大数据的同学,大家可以加大数据交流 766,988,146——我刚整理了一份大数据2018最新的0基础入门和进阶教程,无私分享。