hadoop

使用docker安装hadoop(已实现)

1.拉镜像 这里推荐第一个 docker pull registry.cn-hangzhou.aliyuncs.com/hadoop_test/hadoop_base 或者 docker pull qianiqan/hadoop_only 2.创建容器 三个容器的名称分别是Master、Slave1 ... »

gqboke

Hadoop生态元数据管理平台——Atlas2.3.0发布!

大家好,我是独孤风。 今天我们来聊一下另一个元数据管理平台Apache Atlas。Atlas其实有一些年头了,是在2015年的时候就开源。 相对于Datahub来说,Atlas显得有一些“老”了,社区也远没有以前活跃。 但是,从稳定性和与Hadoop生态的融合度的角度来说,Atlas目前还是无可替 ... »

Spark简单介绍,Windows下安装Scala+Hadoop+Spark运行环境,集成到IDEA中

一、前言 近几年大数据是异常的火爆,今天小编以java开发的身份来会会大数据,提高一下自己的层面! 大数据技术也是有很多: Hadoop Spark Flink 小编也只知道这些了,由于Hadoop,存在一定的缺陷(循环迭代式数据流处理:多 并行运行的数据可复用场景效率不行)。所以Spark出来了, ... »

wang1221

Ignite实战

1.概述 本篇博客将对Ignite的基础环境、集群快照、分布式计算、SQL查询与处理、机器学习等内容进行介绍。 2.内容 2.1 什么是Ignite? 在学习Ignite之前,我们先来了解一下什么是Ignite?首先,Ignite是Apache开源的***项目之一。Ignite 内存数组组织框架是一个 ... »

HDFS基础学习

HDFS简介 HDFS即Hadoop Distributed File System,是一个分布式文件系统,用于存储海量数据。一个HDFS集群由一个NameNode和多个DataNode组成。 HDFS特性 主从架构 分块存储 副本机制 元数据记录 抽象目录树 HDFS shell命令行 Hadoo ... »

HDFS追加数据报错解决办法

主要的两个错误,今天晚上一直轮着报: 第一个 2022-10-25 21:37:11,901 WARN hdfs.DataStreamer: DataStreamer Exception java.io.IOException: Failed to replace a bad datanode on ... »

Hadoop集群简单入门

##Hadoop集群搭建 自己配置Hadoop的话太过复杂了,因为自己着急学习,就使用了黑马的快照。如果小伙伴们也想的话可以直接看黑马的课程,快照的话关注黑马程序员公众号,输入Hadoop就能获取资料,到时候直接看课程P9就可以了。 Hadoop集群启停命令和Web UI 手动逐个启停 优点:准确的 ... »

he-cheng

Linux 下搭建 Hadoop 环境

Linux 下搭建 Hadoop 环境 作者:Grey 原文地址: 博客园:Linux 下搭建 Hadoop 环境 CSDN:Linux 下搭建 Hadoop 环境 环境要求 操作系统:CentOS 7 下载地址 安装说明 需要准备两个节点,一个是 master 节点,另一个是 slave 节点。 ... »

greyzeng

Hadoop生态系统—数据仓库Hive的安装

一、数据仓库 数据仓库是一个面向主题的、集成的、随时间变化,但信息本身相对稳定的数据集合,相比于传统型数据库,它主要用于支持企业或组织的决策分析处理。主要有以下3个特点: 数据仓库是面向主题的: 数据仓库中的数据是按照一定的主题域进行组织,大概意思就是说存的数据是一类数据 数据仓库是随时间变化的: ... »

浅谈MySQL、Hadoop、BigTable、Clickhouse数据读写机制

个人理解,欢迎指正 数据库 引擎 写数据 读数据 补充 MySql InnoDB:支持事务,高速读写性能一般 Myisam:不支持事务,高速读写性能好 以InnoDB更新一条记录为例 1、B+Tree搜索找到这行记录,如果数据页在内存直接返回给【执行器】,否则从磁盘读入内存再返回 2、【执行器】更新 ... »

ETL工具Datax、sqoop、kettle 的区别

一、Sqoop主要特点: 1.可以将关系型数据库中的数据导入到hdfs,hive,hbase等hadoop组件中,也可以将hadoop组件中的数据导入到关系型数据库中; 2.sqoop在导入导出数据时,充分采用了map-reduce计算框架(默认map数为4),根据输入条件生成一个map-reduc ... »

stanzhou47 hadoop

从 Hadoop 到云原生, 大数据平台如何做存算分离

Hadoop 的诞生改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,受到广泛的应用,给整个行业带来了变革意义的改变;随着云计算时代的到来, 存算分离的架构受到青睐,企业开开始对 Hadoop 的架构进行改造。 今天与大家一起简单回顾 Hadoop 架构以及目前市面上不同的存算分离的架构 ... »

JuiceData

MapReduce计算流程

MapReduce的计算流程 1.1 原始数据File The books chronicle the adventures of the adolescent wizard Harry Potter and his best friends Ron Weasley and Hermione Gra ... »

理想汽车 x JuiceFS:从 Hadoop 到云原生的演进与思考

理想汽车在 Hadoop 时代的技术架构 首先简单回顾下大数据技术的发展,基于我个人的理解,将大数据的发展分了4个时期: 第一个时期: 2006 年到 2008 年。2008 年左右,Hadoop 成为了 Apache ***项目,并正式发布了 1.0 版本,它的基础主要是基于谷歌的三驾马车,GFS、 ... »

JuiceData

搭建hadoop集群

一、搭建Hadoop集群 NameNode:接受客户端的读/写服务,收集 DataNode 汇报的 Block 列表信息 DataNode:真实数据存储的地方(block) SecondaryNameNode:做持久化的时候用到 进程master(主)node1(从)node2(从) NameNod ... »

HDFS的读写流程——宏观与微观

HDFS的读写流程——宏观与微观 HDFS:分布式文件系统,负责存放数据 分布式文件系统:就是将我们的数据放到多台电脑上存储。 **写数据:**就是将客户端上的数据上传到HDFS 宏观过程 客户端向HDFS发送读写数据请求 hdfs dfs -put student.txt /shujia/ 客户端 ... »