hadoop

Spark简单介绍,Windows下安装Scala+Hadoop+Spark运行环境,集成到IDEA中

一、前言 近几年大数据是异常的火爆,今天小编以java开发的身份来会会大数据,提高一下自己的层面! 大数据技术也是有很多: Hadoop Spark Flink 小编也只知道这些了,由于Hadoop,存在一定的缺陷(循环迭代式数据流处理:多 并行运行的数据可复用场景效率不行)。所以Spark出来了, ... »

wang1221

云小课|MRS基础原理之MapReduce介绍

阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。 摘要:MapReduce是Hadoop的核心,是Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算。概 ... »

huaweiyun

Hadoop集群简单入门

##Hadoop集群搭建 自己配置Hadoop的话太过复杂了,因为自己着急学习,就使用了黑马的快照。如果小伙伴们也想的话可以直接看黑马的课程,快照的话关注黑马程序员公众号,输入Hadoop就能获取资料,到时候直接看课程P9就可以了。 Hadoop集群启停命令和Web UI 手动逐个启停 优点:准确的 ... »

he-cheng

Linux 下搭建 Hadoop 环境

Linux 下搭建 Hadoop 环境 作者:Grey 原文地址: 博客园:Linux 下搭建 Hadoop 环境 CSDN:Linux 下搭建 Hadoop 环境 环境要求 操作系统:CentOS 7 下载地址 安装说明 需要准备两个节点,一个是 master 节点,另一个是 slave 节点。 ... »

greyzeng

Hadoop生态系统—数据仓库Hive的安装

一、数据仓库 数据仓库是一个面向主题的、集成的、随时间变化,但信息本身相对稳定的数据集合,相比于传统型数据库,它主要用于支持企业或组织的决策分析处理。主要有以下3个特点: 数据仓库是面向主题的: 数据仓库中的数据是按照一定的主题域进行组织,大概意思就是说存的数据是一类数据 数据仓库是随时间变化的: ... »

浅谈MySQL、Hadoop、BigTable、Clickhouse数据读写机制

个人理解,欢迎指正 数据库 引擎 写数据 读数据 补充 MySql InnoDB:支持事务,高速读写性能一般 Myisam:不支持事务,高速读写性能好 以InnoDB更新一条记录为例 1、B+Tree搜索找到这行记录,如果数据页在内存直接返回给【执行器】,否则从磁盘读入内存再返回 2、【执行器】更新 ... »

从 Hadoop 到云原生, 大数据平台如何做存算分离

Hadoop 的诞生改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,受到广泛的应用,给整个行业带来了变革意义的改变;随着云计算时代的到来, 存算分离的架构受到青睐,企业开开始对 Hadoop 的架构进行改造。 今天与大家一起简单回顾 Hadoop 架构以及目前市面上不同的存算分离的架构 ... »

JuiceData

HDFS 高可用分布式环境搭建

HDFS 高可用分布式环境搭建 作者:Grey 原文地址: 博客园:HDFS 高可用分布式环境搭建 CSDN:HDFS 高可用分布式环境搭建 首先,一定要先完成分布式环境搭建 并验证成功 然后在 node01 上执行stop-dfs.sh 重新规划每个节点的职责 | host | NN | JNN ... »

HDFS 分布式环境搭建

HDFS 分布式环境搭建 作者:Grey 原文地址: 博客园:HDFS 分布式环境搭建 CSDN:HDFS 分布式环境搭建 准备四个Linux实例 每个实例对应的 host 和 ip 地址如下 node01 192.168.150.128 node02 192.168.150.138 node03 ... »

HDFS 伪分布式环境搭建

HDFS 伪分布式环境搭建 作者:Grey 原文地址: 博客园:HDFS 伪分布式环境搭建 CSDN:HDFS 伪分布式环境搭建 相关软件版本 Hadoop 2.6.5 CentOS 7 Oracle JDK 1.8 安装步骤 在CentOS 下安装 Oracle JDK 1.8 下载地址 将下载好 ... »

理想汽车 x JuiceFS:从 Hadoop 到云原生的演进与思考

理想汽车在 Hadoop 时代的技术架构 首先简单回顾下大数据技术的发展,基于我个人的理解,将大数据的发展分了4个时期: 第一个时期: 2006 年到 2008 年。2008 年左右,Hadoop 成为了 Apache ***项目,并正式发布了 1.0 版本,它的基础主要是基于谷歌的三驾马车,GFS、 ... »

JuiceData

搭建hadoop集群

一、搭建Hadoop集群 NameNode:接受客户端的读/写服务,收集 DataNode 汇报的 Block 列表信息 DataNode:真实数据存储的地方(block) SecondaryNameNode:做持久化的时候用到 进程master(主)node1(从)node2(从) NameNod ... »

Hadoop的由来、Block切分、进程详解

Hadoop的由来、Block切分、进程详解 一、hadoop的由来 Google发布了三篇论文: GFS(Google File System) MapReduce(数据计算方法) BigTable:Hbase Doug cutting 花费了两年的业余时间实现了前两篇论文,并重新命名为HDFS和 ... »

Hadoop集群搭建的详细过程

Hadoop集群搭建 一、准备 三台虚拟机:master01,node1,node2 时间同步 1.date命令查看三台虚拟机时间是否一致 2.不一致时间同步:ntpdate ntp.aliyun.com 调整时区 cp /usr/share/zoneinfo/Asia/Shanghai /etc/ ... »

大数据Hadoop入门教程 | (二)Linux

使用finalShell可以提供文件目录图形化 完整Linux命令整理参考大佬博客:Linux常见文件管理命令 - Mr_Walker - 博客园 Linux文件系统基础知识 Linux文件系统概念 操作系统中负责管理和存储文件信息的软件机构称为文件管理系统,简称文件系统; 文件系统的结构通常叫做目 ... »

大数据Hadoop入门教程 | (一)概论

数据是什么 数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合,它是可识别的、抽象的符号。 它不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,也是客观事物的属性、数量、位置及其相互关 ... »

一文理解Hadoop分布式存储和计算框架入门基础

本篇从Hadoop发行版本历史开始,延伸至其生态说明,了解总体组成部分和架构,通过实战部署最新版本3.3.4实现3个节点集群,并配置NameNode和ResourceManager的HA,最后测试完成HDFS文件读写和Yarn任务资源调度。... ... »

大数据管理系统架构Hadoop

Hadoop 起源于Google Lab开发的Google File System (GFS)存储系统和MapReduce数据处理框架。2008年,Hadoop成了Apache上的***项目,发展到今天,Hadoop已经成了主流的大数据处理平台,与Spark、HBase、Hive、Zookeeper等 ... »