Hive

Hadoop-Hive组件部署

一、基础环境 Hive 组件需要基于之前已部署完毕的 Hadoop 全分布系统,在 master 节点上实现 Hive 组件安装。 1、Hadoop-全分布式配置(全部配置) 2、Hadoop-集群运行(部分配置) # 查看之前部署的环境 [root@master ~]# su - hadoop [ ... »

hive从入门到放弃(四)——分区与分桶

今天讲讲分区表和分桶表,前面的文章还没看的可以点击链接: hive从入门到放弃(一)——初识hive hive从入门到放弃(二)——DDL数据定义 hive从入门到放弃(三)——DML数据操作 分区 分区可以提高查询效率,实际上 hive 的一个分区就是 HDFS 上的一个目录,目录里放着属于该分区 ... »

万字长文详解HiveSQL执行计划

本文目录: 一、前言 二、SQL的执行计划 explain 的用法explain 的使用场景 案例一:join 语句会过滤 null 的值吗? 案例二:group by 分组语句会进行排序吗? 案例三:哪条sql执行效率高呢? 案例四:定位产生数据倾斜的代码段explain dependency的用 ... »

hive从入门到放弃(三)——DML数据操作

上一篇给大家介绍了 hive 的 DDL 数据定义语言,这篇来介绍一下 DML 数据操作语言。 没看过的可以点击跳转阅读: hive从入门到放弃(一)——初识hive hive从入门到放弃(二)——DDL数据定义 数据写入 数据导入部分默认数据文件格式为 textfile,每一列由‘,’进行分割,以 ... »

hive从入门到放弃(二)——DDL数据定义

前一篇文章,介绍了什么是 hive,以及 hive 的架构、数据类型,没看的可以点击阅读:hive从入门到放弃(一)——初识hive 今天讲一下 hive 的 DDL 数据定义 创建数据库 CREATE DATABASE [IF NOT EXISTS]① database_name [COMMENT ... »

hive从入门到放弃(一)——初识hive

之前更完了《Kafka从入门到放弃》系列文章,本人决定开新坑——hive从入门到放弃,今天先认识一下hive。 没看过 Kafka 系列的朋友可以点此传送阅读: 《Kafka从入门到放弃》系列 hive介绍 hive是一个开源的用于大数据分析和统计的数据库工具,它的存储基于HDFS,计算基于MapR ... »

Hive压缩格式

TextFile Hive数据表的默认格式,存储方式:行存储。 可使用Gzip,Bzip2等压缩算法压缩,压缩后的文件不支持split 但在反序列化过程中,必须逐个字符判断是不是分隔符和行结束符,因此反序列化开销会比SequenceFile高几十倍。 --创建数据表:create table if not exists textfile_table( site string, url »

hive批量执行sql命令及使用小技巧

root@hadoop-senior hive-0.13.1]$ bin/hive -helpusage: hive -d, --define <key=value>         Variable subsitution to apply to hive                     comm »

【Hive学习之四】Hive 案例

环境  虚拟机:VMware 10   Linux版本:CentOS-6.5-x86_64   客户端:Xshell4  FTP:Xftp4  jdk8  hadoop-3.1.1  apache-hive-3.1.1   一、需求:统计出掉线率最高的前10基站  数据:    record_time:通话时间    imei:基站编号    cell:手机编号    drop_num:掉话的秒数 »

使用sqoop从mysql导入数据到hive

  目录 前言 一、使用的导入命令 二、遇到的问题及解决 1. 用文本字段进行分区的问题 2. Hadoop历史服务器Hadoop JobHistory没开启的问题 3. 连接元数据存储数据库报错 4. 没有在hive创建数据库 5. 其他警告和报错 三、参考   回到顶部 前言 这篇文章主要是用sqoop从mysql导入数据到hive时遇到的坑的总结。 环境: 系统 »

Hive高级

HiveServer2 概述: https://cwiki.apache.org/confluence/display/Hive/HiveServer2+Overview2 客户端: https://cwiki.apache.org/confluence/display/Hive/HiveServer2+Clients Hive数据压缩 压缩格式: bzip2, gzip, lzo, s »

Hive(三)hive的高级操作

一、hive的各种join操作  语法结构:join_table:table_reference JOIN table_factor [join_condition]| table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition| table_reference LEFT SEMI JOIN table »

hive 桶相关特性分析

1. hive 桶相关概念     桶(bucket)是指将表或分区中指定列的值为key进行hash,hash到指定的桶中,这样可以支持高效采样工作。     抽样( sampling )可以在全体数据上进行采样,这样效率自然就低,它还是要去访问所有数据。而如果一个表已经对某一列制作了bucket,就可以采样所有桶中指定序号的某个桶,这就减少了访问量。 »

python连接hive

1.python连接hive,其实是连接hiveserver,连接的包的impyla 2. impyla安装:   error:   cc1plus 没有文件或目录                 需要安装gcc 和g++,并且版本保持一致   error:   sasl/sasl.h: 没有那个文件或目录                    sudo apt-get install libsa »

HIVE 创建外部分区表--利用HUE不能创建外部表

Create EXTERNAL table obd_data_2(   imei string,   ts timestamp,   fuel_instant float,   gps_speed float,   gps_status string,   gps_longitude float,   gps_latitude float,   direct_angle float,   mile »

Hive表操作以及原理

hive    hive是基于hadoop的一个数据仓库工具,可将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可将sql转换为MapReduce任务运行。hive不适合用于联机事务处理,也不提供实时查询,他适合应用在基于大量不可变的批处理作业。    hive架构分为四个部分:        用户接口:            CLI:hive的命令模式,启动命令hive     »

Hive安装(一)之环境配置

  Hive Web Interface(HWI)简介:Hive自带了一个Web-GUI,功能不多,可用于效果展示,如果没有安装Hue的话,是个不错的选择。 由于hive-bin包中没有包含HWI的页面,只有Java代码编译好的jar包:hive-hwi-1.0.1.jar 因此需要下载源码从中提取jsp文件并打包成war文件到hive-lib目录中: cd apache-hive-1.0.1- »

HIVE 的序列化存储

本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在 MapReduce环境下的大规模数据分析中扮演重要角色。 Facebook曾在2010 ICDE(IEEE International Conference on Data Engineering)会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中,提供了一套类数据库的数 »