Hive

sqoop1.4.7完全支持Hadoop3.x, Hive3.x Hbase2.x

已经修改好 保存至云盘 自己下载 花了时间的,记得关注我。。。 链接:https://pan.xunlei.com/s/VNe6P6Tm1A9Q-RG5GByN08rdA1# 提取码:5nke 复制这段内容后打开手机迅雷App,查看更方便 下载解压直接用,里面的内容已经改好 但是需要注意的是conf ... »

Flink-读Kafka写Hive表

1. 目标 使用Flink读取Kafka数据并实时写入Hive表。 2. 环境配置 EMR环境:Hadoop 3.3.3, Hive 3.1.3, Flink 1.16.0 根据官网描述: https://nightlies.apache.org/flink/flink-docs-release-1 ... »

zackstang Flink

Hive安装与启动

## 一、mysql安装 在配置Hive之前一般都需要安装和配置MySQL,因为Hive为了能操作HDFS上的数据集,那么他需要知道数据的切分格式,如行列分隔符,存储类型,是否压缩,数据的存储地址等信息。 为了方便以后操作所以他需要将这些信息通过一张表存储起来,然后将这张表(元数据)存储到mysql ... »

ruo1101

什么是hive的高级分组聚合,它的用法和注意事项以及性能分析

hive的高级分组聚合是指在聚合时使用GROUPING SETS、CUBE和ROLLUP的分组聚合。 高级分组聚合在很多数据库类SQL中都有出现,并非hive独有,这里只说明hive中的情况。 使用高级分组聚合不仅可以简化SQL语句,而且通常情况下会提升SQL语句的性能。 ## 1.Grouping ... »

lubians

Hive执行计划之什么是hiveSQL向量化模式及优化详解

Hive开启向量化模式也是hiveSQL优化方法中的一种,可以提升hive查询速率,也叫hive矢量化。 问题1:那么什么是hive向量化模式呢? 问题2:hive向量化什么情况下可以被使用,或者说它有哪些使用场景呢? 问题3:如何查看hive向量化使用的相关信息? ## 1.什么是hive向量化模 ... »

Hive执行计划之hive依赖及权限查询和常见使用场景

[TOC] ## 概述 Hive查看执行计划的命令中还有两个不怎么常用但很重要的命令,接下来详细介绍一下。 有一个问题:**如何在hiveSQL执行之前就探查到这段逻辑的血缘依赖关系?** hive血缘是很多生产级数仓必须要提供的功能,大多数解决方案都是**使用hive hooks的方法通过SQL执 ... »

Hive执行计划之一文读懂Hive执行计划

[TOC] ## 概述 Hive的执行计划描述了一个hiveSQL语句的具体执行步骤,通过执行计划解读可以了解hiveSQL语句被解析器转换为相应程序语言的执行逻辑。通过执行逻辑可以知晓HiveSQL运行流程,进而对流程进行优化,实现更优的数据查询处理。 同样,通过执行计划,还可以了解到哪些不一样的 ... »

消息推送平台的实时数仓?!flink消费kafka消息入到hive

大家好,3y啊。好些天没更新了,并没有偷懒,只不过一直在安装环境,差点都想放弃了。 上一次比较大的更新是做了austin的预览地址,把企业微信的应用和机器人消息各种的消息类型和功能给完善了。上一篇文章也提到了,austin常规的功能已经更新得差不多了,剩下的就是各种细节的完善。 不知道大家还记不记得 ... »

Java3y

hive内部表和外部表的区别详解

Hive内部表:默认创建的表是内部表。hive完全管理表(元数据和数据)的声明周期,类似于RDBMS的表。当删除表时,他会删除源数据以及表的元数据。 Hive外部表:外部表的数据不是Hive拥有或者管理的,只管理元数据的声明周期。要创建一个外部表,需要使用external关键字。删除外部表是只会删 »

Hive数据导出详解

目录 一、数据导出是什么? 二、六大帮派 1.insert 2.Hadoop命令导出到本地 3.Hive shell命令导出 4.export导出到HDFS上 5.Sqoop导出 6.清除表中的数据(Truncate)——删库跑路 总结 一、数据导出是什么? hive是一个依赖Had »

数据库之Hive概论和架构和基本操作

目录 Hive概论 Hive架构  Hive安全和启动 Hive数据库操作 Hive内部表操作-数据添加 Hive内部表特点 Hive外部表操作 Hive表操作-分区表 Hive概论 Hive是一个构建在Hadoop上的数据仓库框架,最初,Hive是由Facebook开发,后台移交由Apa »

idea中如何连接hive

目录 一、准备工作 1、添加依赖 2、修改 hadoop 和 hive 的配置文件 3、启动hivserver2服务 二、创建 hive 连接 1、打开 Database 窗口 2、创建 Driver 4、创建 hive 的连接 三、未解决错误 总结 一、准备工作 1、添加依 »

idea中如何连接hive

目录 一、准备工作 1、添加依赖 2、修改 hadoop 和 hive 的配置文件 3、启动hivserver2服务 二、创建 hive 连接 1、打开 Database 窗口 2、创建 Driver 4、创建 hive 的连接 三、未解决错误 总结 一、准备工作 1、添加依 »

Hive 和 Spark 分区策略剖析

随着技术的不断的发展,大数据领域对于海量数据的存储和处理的技术框架越来越多。在离线数据处理生态系统最具代表性的分布式处理引擎当属Hive和Spark,它们在分区策略方面有着一些相似之处,但也存在一些不同之处。 ... »

vivotech

基于idea操作hbase数据库并映射到hive表

目录 一:先关闭所有服务 二:配置文件 三:启动服务 依赖条件:需要有Hadoop,hive,zookeeper,hbase环境 映射:每一个在 Hive 表中的域都存在于 HBase 中,而在 Hive 表中不需要包含所有HBase 中的列。HBase 中的 RowKey 对应到 Hive »

基于idea操作hbase数据库并映射到hive表

目录 一:先关闭所有服务 二:配置文件 三:启动服务 依赖条件:需要有Hadoop,hive,zookeeper,hbase环境 映射:每一个在 Hive 表中的域都存在于 HBase 中,而在 Hive 表中不需要包含所有HBase 中的列。HBase 中的 RowKey 对应到 Hive »

工良出品:包教会,Hadoop、Hive 搭建部署简易教程

导读 最近一个数据分析朋友需要学习 Hive,刚好我也想学,便利用手头的服务器搭建一个学习环境,但是搭建过程中,发现网上的教程很多过时了,而且部署过程中,很多地方走不通,博主也没有给出对应的说明。花了大力气才从各种资料中完成 Hadoop、Mysql、Hive 三者的部署。 因此,本文记录在 Win ... »

whuanle

Python读取Hive数据库实现代码详解

目录 实际业务读取hive数据库的代码 代码说明和领悟 后续附上修改成mysql的一个例子代码 背景: 在这篇文章之前,我读取数据库的数据没有形成规范,并且代码扩展性不好,使用率不高,而且比较混乱。数据库信息的替换也比较混乱。坏习惯包括:连接数据库之后就开始读数,读完就结束,数据的存放也没有 »