Hive

Linux 下搭建 Hive 环境

Linux 下搭建 Hive 环境 作者:Grey 原文地址: 博客园:Linux 下搭建 Hive 环境 CSDN:Linux 下搭建 Hive 环境 前置工作 首先,需要先完成 Linux 下搭建 Kafka 环境 Linux 下搭建 Hadoop 环境 Linux 下搭建 HBase 环境 本 ... »

Hadoop生态系统—数据仓库Hive的安装

一、数据仓库 数据仓库是一个面向主题的、集成的、随时间变化,但信息本身相对稳定的数据集合,相比于传统型数据库,它主要用于支持企业或组织的决策分析处理。主要有以下3个特点: 数据仓库是面向主题的: 数据仓库中的数据是按照一定的主题域进行组织,大概意思就是说存的数据是一类数据 数据仓库是随时间变化的: ... »

如何使用DBeaver连接Hive

1 DBeaver介绍 DBeaver是一个通用的数据库管理工具和 SQL 客户端,支持多种兼容 JDBC 的数据库。DBeaver 提供一个图形界面用来查看数据库结构、执行SQL查询和脚本,浏览和导出数据,处理BLOB/CLOB 数据,修改数据库结构等。 2 安装DBeaver 下载地址:http ... »

flink-cdc同步mysql数据到hive

本文首发于我的个人博客网站 等待下一个秋-Flink 什么是CDC? CDC是(Change Data Capture 变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到 ... »

data-magnifier

数据仓库与hive

数据仓库与hive hive——数据仓库建模工具之一 一、数据库、数据仓库 1.1 数据库 关系数据库本质上是一个二元关系,说的简单一些,就是一个二维表格,对普通人来说,最简单的理解就是一个Excel表格。这种数据库类型,具有结构化程度高,独立性强,冗余度低等等优点,一下子就促进了计算机的发展。 1 ... »

bfy0221

Hive数据仓库工具基本架构和入门部署详解

Hive是一个建立在Hadoop HDFS架构至上的数仓工具,管理元数据但本身不存储数据,本篇了解hive优缺点,进一步理解其组成部分和数据组织形式和Driver,最后通过部署最新版本3.1.3版本完成内嵌模式、本地metastore、远程hiveserver2和metastore打开进入hive使... ... »

itxiaoshen

Hive的基本知识与操作

Hive的基本知识与操作 Hive的基本概念 Hive本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更近一步说hive就是一个MapReduce客户端。 为什么使用Hive? 如果直接 ... »

bfy0221 hive

什么是谓词下推,看这一篇就够了

今天有个小伙伴问我,什么是谓词下推,然后我就开启巴拉巴拉模式,说了好长一段时间,结果发现他还是懵的。 最后我概述给他一句话:所谓谓词下推,就是将尽可能多的判断更贴近数据源,以使查询时能跳过无关的数据。用在SQL优化上来说,就是先过滤再做聚合等操作。 看到这里的朋友可能就已经明白了什么是谓词下推,如果 ... »

lubians hive

Hive存储格式之RCFile详解,RCFile的过去现在和未来

我在整理Hive的存储格式和压缩格式,本来打算一篇发出来,结果其中一小节就有很多内容,于是打算写成Hive存储格式和压缩格式系列。 本节主要讲一下Hive存储格式最早的典型的列式存储格式RCFile。 综述 RCFile(Record Columnar File)文件格式是FaceBook开源的一种 ... »

lubians hive

什么是hive的静态分区和动态分区,它们又有什么区别呢?hive动态分区详解

面试官问我,什么是hive的静态分区和动态分区,这题我会呀。 简述 分区是hive存放数据的一种方式,将列值作为目录来存放数据,就是一个分区,可以有多列。 这样查询时使用分区列进行过滤,只需根据列值直接扫描对应目录下的数据,不扫描不关心的分区,快速定位,提高查询效率。 hive的分区有两种类型: 静 ... »

lubians hive

关于hive分区,你知道多少呢?

​ 文末查看关键字,回复赠书 一、理论基础 1.Hive分区背景 在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。 2.Hive分区实质 因为Hive实际是存储在HDFS上的抽象,Hive ... »

lubians hive

Flink SQL 连接hive

最近在调研flink sql连接hive,初次使用踩了许多坑,记录一下。 首先idea运行需要Windows上安装Hadoop环境,并配置好环境变量,否则报$HADOOP_HOME找不到的错误。 配置完成后进入到Linux服务器上已有的Hadoop环境,将core-site.xml文件和hdfs-s ... »

hive表查询中文显示乱码

  hive在查询表信息时,中文显示乱码,数字或者url显现null问题解决思路。 1、确定create hive表时指定的row format delimited fields terminated by ‘xxx’中“xxx”格式是否和原始导入表的data的行列分隔格式一致,如不一致,则会出现select结果中数字或者url显现null等问题,所以需先统一格式。 2、Windows使用的GB2 »

hive 空值判断

hive 空值判断 20190903 hive中空值判断基本分两种 一、NULL 与 \N hive在底层数据中如何保存和标识NULL,是由 serialization.null.format参数控制. \N alter table table_name SET SERDEPROPERTIES('serialization.null.format' = '\N'); 设置 seria »

hive自带derby数据库初始化

如果是用的是hive自带的内存数据库derby,应该先初始化,进入hive目录,里面有一个metestore文件夹(是之前启动hive的derby时自动生成的,这里需要将metastore_db 目录重命名为 metastore_db.tmp,然后再初始化)。 解决步骤(在hive目录下): 1.> mv metastore_db metastore_db.tmp 2.> bin/ »