一、什么是大数据?大数据的核心问题
    举例:
    1、商品推荐信息   问题1:大量的订单如何存储?
                      问题2:大量的订单如何计算?
    2、天气预报       问题1:大量的天气数据如何存储?
                      问题2:大量的天气数据如何计算?
 
    大数据的核心问题:1、数据的存储:分布式的文件系统
                      2、数据的计算:分布式的计算模型
                       
二、分布式文件系统的原理和体系架构(重要)
 
 
三、实战:搭建Hadoop分布式文件系统---HDFS
    1、准备:实验环境
        (*)Linux:Redhat Linux 7.4  64位
        (*)JDK 1.8 64位
        (*)Hadoop 2.7.3  =  HDFS  + Yarn
 
    2、配置Linux
        (*)关闭防火墙
              systemctl stop firewalld.service
              systemctl disable firewalld.service
        (*)配置主机名  vi /etc/hosts
              192.168.157.81 mydemo81
               
    3、安装JDK
        (*)解压  tar -zxvf jdk-8u144-linux-x64.tar.gz -C ~/training/
        (*) 设置环境变量  vi ~/.bash_profile
                JAVA_HOME=/root/training/jdk1.8.0_144
                export JAVA_HOME
 
                PATH=$JAVA_HOME/bin:$PATH
                export PATH
                 
        (*) 生效环境变量  source ~/.bash_profile
 
    4、安装配置Hadoop(HDFS+Yarn)
        (*) 解压、设置Hadoop的环境变量
             tar -zxvf hadoop-2.7.3.tar.gz -C ~/training/
             vi ~/.bash_profile 配置文件
                HADOOP_HOME=/root/training/hadoop-2.7.3
                export HADOOP_HOME
 
                PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
                export PATH
             生效
              
        (*) 配置文件:  $HADOOP_HOME/etc/hadoop
            参考VIP课程讲义
            hadoop-env.sh  
                 export JAVA_HOME=/root/training/jdk1.8.0_144
                  
            hdfs-site.xml
             
                <!--数据块的冗余度,默认3-->
                <property>
                  <name>dfs.replication</name>
                  <value>1</value>
                </property>       
 
                <!--是否开启HDFS的权限检查,默认true-->
                <property>
                  <name>dfs.permissions</name>
                  <value>false</value>
                </property>       
             
            core-site.xml
                <!--管理员NameNode的地址-->
                <property>
                  <name>fs.defaultFS</name>
                  <value>hdfs://mydemo81:9000</value>
                </property>   
 
                <!--HDFS的数据在Linux的保存路径,默认是Linux的tmp目录-->
                <property>
                  <name>hadoop.tmp.dir</name>
                  <value>/root/training/hadoop-2.7.3/tmp</value>
                </property>               
         
            下面的两个是配置MapReduce和Yarn的
         
            mapred-site.xml
                <property>
                  <name>mapreduce.framework.name</name>
                  <value>yarn</value>
                </property>           
         
            yarn-site.xml
                <property>
                  <name>yarn.resourcemanager.hostname</name>
                  <value>mydemo81</value>
                </property>   
 
                <property>
                  <name>yarn.nodemanager.aux-services</name>
                  <value>mapreduce_shuffle</value>
                </property>   
             
        (*) 对NameNode进行格式化
             hdfs namenode -format
              
             日志:
             Storage directory /root/training/hadoop-2.7.3/tmp/dfs/name has been successfully formatted.
         
        (*) 启动Hadoop: HDFS  Yarn
              start-all.sh
              start-dfs.sh
              start-yarn.sh
         

四、实战:操作HDFS

    Web Console: http://ip:50070

另外,在这里相信有许多想要学习大数据的同学,大家可以加大数据交流 766,988,146——我刚整理了一份大数据2018最新的0基础入门和进阶教程,无私分享。

大数据云盘核心技术:分布式文件系统的高级特性及实战,甲骨文技术总监整理!

相关文章:

  • 2022-12-23
  • 2022-12-23
  • 2021-09-23
  • 2021-10-12
  • 2021-07-03
  • 2021-11-13
  • 2022-02-19
  • 2021-07-18
猜你喜欢
  • 2021-04-11
  • 2021-04-07
  • 2021-10-13
  • 2021-07-27
  • 2021-07-25
  • 2021-11-01
  • 2021-11-26
相关资源
相似解决方案