Hive

hdfs文件导入到hive(带资源)

前言 hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行,下面来介绍如何将结 ... »

Hive UDF,就这

摘要:Hive UDF是什么?有什么用?怎么用?什么原理?本文从UDF使用入手,简要介绍相关源码,UDF从零开始。 本文分享自华为云社区《Hive UDF,就这》,作者:汤忒撒。 Hive中内置了很多函数,同时支持用户自行扩展,按规则添加后即可在sql执行过程中使用,目前支持UDF、UDTF、UDA ... »

hive举例实现字数统计

Hive是数据仓库,主要用来对历史数据做分析 Hive 的产生是为了帮助非java程序员做MR分析 Hive是以hdfs为基础的,所有的数据存储在hdfs上,hive的所有操作都是hdfs和MR操作 »

hzcjd

Hive| ETL清洗& 查询练习

ETL清洗数据 导Jar包 ETLUtil.java ETLMapper.java ETLDriver.java 1.分组TOPN选出今年每个学校,每个年级,每个科目分数前三. : 时间,学校,年级, »

shengyang17

Mac上搭建Hadoop环境(3) — Hive下载及安装

文章目录前言主要步骤安装mysql配置hive元数据库Hive安装设置环境变量设置配置文件准备mysql-connector-java初始化元数据启动metastore测试前言之前已经完成了hadoo »

lestatzhang

Hive on Spark和Spark sql on Hive,你能分的清楚么

摘要:结构上Hive On Spark和SparkSQL都是一个翻译层,把一个SQL翻译成分布式可执行的Spark程序。 本文分享自华为云社区《Hive on Spark和Spark sql on Hive有啥区别?》,作者:dayu_dls 。 结构上Hive On Spark和SparkSQL都 ... »

Hive中文注释乱码解决方案(2)

本文来自网易云社区 作者:王潘安 执行阶段 launchTask 回到Driver类的runInternal方法,看以下执行过程。在runInternal方法中,执行过程调用了execute方法。ex »

zyfd

Json Hive SQL -解析json(get_json_object)

简介: get_json_object(string json_string, string path) 说明: 第一个参数填写json对象变量 第二个参数使用$表示json变量标识,然后用 . 或 »

gengyufei

大数据之路Week08_day03 (Hive的动态分区和分桶)

一、动态分区 先来说说我对动态分区的理解与一些感受吧。 由于我们通过hive去查询数据的时候,实际还是查询HDFS上的数据,一旦一个目录下有很多文件呢?而我们去查找的数据也没有那么多,全盘扫描就会浪费 »

wyh-study

手把手教你做用户画像——标签数据开发:用户画像工程化的重点模块,包含统计类、规则类、挖掘类、流式计算类标签的开发,标签相关数据可存储在Hive、MySQL、HBase、Elasticsearch等数据库中

手把手教你做用户画像:3种标签类型、8大系统模块 2020-04-08阅读 5320 导读:在互联网步入大数据时代后,用户行为给企业的产品和服务带来了一系列的改变和重塑,其中最大的变化在于, »

bonelee

Hive SQL优化思路

Hive的优化主要分为:配置优化、SQL语句优化、任务优化等方案。其中在开发过程中主要涉及到的可能是SQL优化这块。 优化的核心思想是: 减少数据量(例如分区、列剪裁) 避免数据倾斜(例如加参数、Key打散) 避免全表扫描(例如on添加加上分区等) 减少job数(例如相同的on条件的join放在一起 ... »

HIve字符串函数 - ~handsome

1. 字符 ascii 码函数:ascii 语法: ascii(string str) 返回值: int 说明:返回字符串 str 中第一个字符的ascii 码 举例: hive> select »

handsome-24

Hive表导出成csv文件

命令 set hive.cli.print.header=true将表头输出;sed 's/[\\t]/,/g' 将\\t替换成,> 将shell里打印的内容输出 »

feiquan