hadoop

【Hadoop】HBase组件配置

HBase实验步骤: 需要在Hadoop-全分布式配置的基础上进行配置 1、配置时间同步(所有节点) [root@master ~]# yum -y install chrony [root@master ~]# vi /etc/chrony.conf server 0.time1.aliyun.c ... »

坐实大数据资源调度框架之王,Yarn为何这么牛

摘要:Yarn的出现伴随着Hadoop的发展,使Hadoop从一个单一的大数据计算引擎,成为大数据的代名词。 本文分享自华为云社区《Yarn为何能坐实资源调度框架之王?》,作者: JavaEdge。 Hadoop主要组成: 分布式文件系统HDFS 分布式计算框架MapReduce 分布式集群资源调度 ... »

Hadoop安装部署

Hadoop伪分布式搭建 1.准备Linux环境 ①开启网络,ifconfig指令查看ip ②修改主机名为自己名字(hadoop) vim /etc/sysconfig/network NETWORKING=yes HOSTNAME=hadoop ③修改主机名和IP的映射关系 vim /etc/ho ... »

都2022年了,HDFS为何还如此能战!

摘要:HDFS也许不是最好的大数据存储技术,但依然是最重要的大数据存储技术。 本文分享自华为云社区《HDFS为何在大数据领域经久不衰?》,作者: JavaEdge。 1、概述 1.1 简介 Hadoop实现的一个分布式文件系统(Hadoop Distributed File System),简称HD ... »

Linux_hadoop2.2.0伪分布式搭建安装

一:准备Linux环境 1.1 开启网络,ifconfig指令查看ip 1.2 修改主机名为自己名字(hadoop) centos 7 连接:https://zhuanlan.zhihu.com/p/375497418 vim /etc/sysconfig/network NETWORKING=ye ... »

zzc1102 Linux

Hadoop-Hive组件部署

一、基础环境 Hive 组件需要基于之前已部署完毕的 Hadoop 全分布系统,在 master 节点上实现 Hive 组件安装。 1、Hadoop-全分布式配置(全部配置) 2、Hadoop-集群运行(部分配置) # 查看之前部署的环境 [root@master ~]# su - hadoop [ ... »

Hadoop-集群运行

**前提:**需要在上节Hadoop文件参数配置的基础上完成 步骤一、NameNode 格式化 第一次启动 HDFS 时要进行格式化,否则会缺失 DataNode 进程。另外,只要运行过 HDFS,Hadoop 的工作目录(本书设置为/usr/local/src/hadoop/tmp)就会有数据,如 ... »

Hadoop2.x与Hadoop3.x副本选择机制

HDFS 上的文件对应的 Block 保存多个副本,且提供容错机制,副本丢失或者宕机自动恢复,默认是存 3 个副本。 2.8.x之前的副本策略 官方文档说明: https://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-hdfs/ ... »

dawn-lewis Hadoop

Hadoop-全分布式配置

一、配置基础环境 需要用到三台主机,一台做master节点,两台做slave节点。三个节点分别配置网络、主机名、及主机名与IP的映射关系 1、配置网络信息 master_wzg节点的IP为192.168.100.10 slave1_wzg节点的IP为192.168.100.20 slave2_wzg ... »

解决Hadoop集群hdfs无法启动DataNode的问题

问题描述: 在hadoop启动hdfs的之后,使用jps命令查看运行情况时发现hdfs的DataNode并没有打开。 笔者出现此情况前曾使用hdfs namenode -format格式化了hdfs 如有三个hadoop集群,分别为hadoop102,hadoop103,hadoop104 其问题情 ... »

13roky

Hadoop MR 执行过程和Shuffle

一、数据的本地化 1.当JobTracker接收到应用之后,会去访问NameNode获取要处理的文件信息 2.NameNode将文件信息返回给JobTracker,这里的文件信息只是文件在DataNo »

alen-apple

hadoop-SSH免密登录配置

一:配置基础环境 一、修改主机名 修改 master 机器主机名 [root@server ~]# hostnamectl set-hostname master-wzg [root@server ~]# bash [root@master-wzg ~]# hostname master-wzg 修 ... »

wzgwzg

大数据教程-01HDFS的基本组成和原理

一 Hadoop历史背景 起源于2003年谷歌的Google File System相关论文,随后Doug Cutting(我们下面就叫他切哥吧)基于GFS的论文实现了分布式文件系统,并把它命名为NDFS(Nutch Distributied File System)。 2004年谷歌又发表了一篇学 ... »

hadoop基础题

转自:http://blog.csdn.net/pelick/article/details/8299482 //Hadoop基础 Doug Cutting所创立的项目的名称都受到其家人的启发,以下项 »

freeopen

Windows Hadoop安装

由于hadoop版本2.7.1对其他相关工具兼容较好,本文以此版本为例。 一、下载解压 各镜像站现已没有这个版本,所以去Apache官网下载 http://www.apache.org/dyn/clo »

abcdefghijklmnopqrstuvwxyz

Hadoop生态圈-大数据生态体系快速入门篇

Hadoop生态圈-大数据生态体系快速入门篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.大数据概念 1>.什么是大数据 大数据(big data):是指无法在一定时间 »

yinzhengjie

大数据之hadoop小文件存档

hadoop小文件存档1.HDFS存档小文件弊端 每个文件均按块存储,每个块的元数据存储在NameNode的内存中,因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。但注意,存储小文件所需的磁盘容量和数据块的大小无关。例如,一个1M的文件设置为128M的块存储,实际使用的是1M的磁盘你空间。2.解决存储小文件办法之一 HDFS存文档文件或HAR文件 »

Hadoop原生对象存储Ozone

Hadoop 社区推出了新一代分布式Key-value对象存储系统 Ozone,同时提供对象和文件访问的接口,从构架上解决了长久以来困扰HDFS的小文件问题。本文作为Ozone系列文章的第一篇,抛个砖,介绍Ozone的产生背景,主要架构和功能。 背景 HDFS是业界默认的大数据存储系统,在业界的大数 ... »