数据仓库

Hadoop生态系统—数据仓库Hive的安装

一、数据仓库 数据仓库是一个面向主题的、集成的、随时间变化,但信息本身相对稳定的数据集合,相比于传统型数据库,它主要用于支持企业或组织的决策分析处理。主要有以下3个特点: 数据仓库是面向主题的: 数据仓库中的数据是按照一定的主题域进行组织,大概意思就是说存的数据是一类数据 数据仓库是随时间变化的: ... »

ClickHouse(07)ClickHouse数据库引擎解析

这里会介绍ClickHouse几种数据库引擎,已经对应的特点和应用的场景。数据库引擎允许您处理数据表。默认情况下,ClickHouse使用Atomic数据库引擎。它提供了可配置的table engines和SQL dialect。 目前的数据库引擎: MySQL MaterializeMySQL L ... »

数据仓库与hive

数据仓库与hive hive——数据仓库建模工具之一 一、数据库、数据仓库 1.1 数据库 关系数据库本质上是一个二元关系,说的简单一些,就是一个二维表格,对普通人来说,最简单的理解就是一个Excel表格。这种数据库类型,具有结构化程度高,独立性强,冗余度低等等优点,一下子就促进了计算机的发展。 1 ... »

bfy0221

Hive数据仓库工具基本架构和入门部署详解

Hive是一个建立在Hadoop HDFS架构至上的数仓工具,管理元数据但本身不存储数据,本篇了解hive优缺点,进一步理解其组成部分和数据组织形式和Driver,最后通过部署最新版本3.1.3版本完成内嵌模式、本地metastore、远程hiveserver2和metastore打开进入hive使... ... »

itxiaoshen

ClickHouse(05)ClickHouse数据类型详解

ClickHouse属于分析型数据库,ClickHouse提供了许多数据类型,它们可以划分为基础类型、复合类型和特殊类型。其中基础类型使ClickHouse具备了描述数据的基本能力,而另外两种类型则使ClickHouse的数据表达能力更加丰富立体。 基础类型 基础类型只有数值、字符串和时间三种类型, ... »

ClickHouse(04)如何搭建ClickHouse集群

ClickHouse集群的搭建和部署和单机的部署是类似的,主要在于配置的不一致,如果需要了解ClickHouse单机的安装设部署,可以看看这篇文章,ClickHouse(03)ClickHouse怎么安装和部署。 ClickHouse集群部署流程大概如下: 环境准备 在每台机器上安装单机版Click ... »

ClickHouse(03)ClickHouse怎么安装和部署

本文会介绍如何安装和部署ClickHouse,官方推荐的几种安装模式,以及安装之后如何启动,ClickHouse集群如何配置等。 简单来说,ClickHouse的搭建流程如下: 环境检查,环境依赖安装 在对应的服务上下载安装Click House 配置config.xml和user.xml,如果搭建 ... »

hive的访问:通过JDBC远程连接hive数据仓库

hive的访问:终端访问  远程访问 终端访问:安装hive,利用shell脚本访问 不可并发访问 远程访问:通过JDBC连接数据仓库 支持并发访问 启动hiveserver2服务:查看该命令可知hiveserver2,等价于hive --service hiveserver2 & [xiaoqiu@s150 /soft/hive/bin]$ cat hiveserver2 »

电力:发电公司如何构建自己的数据仓库

引言      在之前的文章中我们论述到构建以在线经营管理为核心的数据决策平台的重要性,并给出了发电公司经营管理数据决策平台的总体框架以及构建思路。每个企业想提高竞争力,都要从管理的细微处做起,而研究数据价值,是其中非常重要一点。     要研究数据价值,就必须要先做好数据的治理、管理工作,因为数据挖掘、OLAP等数据分析技术都是建立在数据仓库的基础上的。本文结合帆软在电力行业数据应用领域的多年合 »

大数据环境下的数据仓库建设

先从大数据数据仓库建设的整体架构说起。 下图是数据仓库的逻辑分层架构: 想看懂数据仓库的逻辑分层架构,必须先弄懂以下4大概念。 数据源:数据来源,互联网公司的数据来源随着公司的规模扩张而呈递增趋势,同时自不同的业务源,比如埋点采集,客户上报,API等。 ODS层:数据仓库源头系统的数据表通常会原封不动地存储一份,这称为ODS层, ODS层也经常会被称为准备区。这一层做的工作是贴源,而这些数据和源 »

数据仓库的几类事实表

交易事实表、周期快照事实表和累积快照事实表,事实快照          在数据仓库领域有一个概念叫Transaction fact table,中文一般翻译为“事务事实表”。事务事实表是维度建模的数据仓库中三种基本类型事实表中的一种,另外两种分别是周期快照事实表和累积快照事实表。         事务事实表与周期快照事实表、累积快照事实表使用相同的一致性维度,但是它们在描述业务事实方面是有着非常大 »

SAP-BW数据仓库增量更新(转载)

1    说说假增量       我 们都知道,对于BW来说,很多ECC的标准数据源自带了增量更新功能,每天各种凭证产生的增量数据会自动堆积到增量队列里,然后BW端做一个增量信息包按 天把这些增量抽取到数据仓库里,非常轻松自然,对于客户和顾问,都是透明的自动的容易实施的,这也是上过ECC的企业数据仓库采用SAP BW的一个优势所在。   但 是对于非ECC的一般数据库或者ECC的自定义数据源,做增 »

数据仓库基础(十)组件1

Informatica主要的组件: Source Qualifier 从数据源读取数据 Expression 行级转换,计算式 Filter 数据过滤 Sorter 数据排序 Aggregator 聚合 Joiner 异构数据关系连接 Lookup 查询连接 Update Strategy 对目标编辑insert, update,delete ,reject Router 条件分发 Sequenc »

数据仓库之星型结构雪花状结构

星型结构 雪花状结构 优点  数据模型简单容易理解 容易定义层级结构 减少连接(JOIN)次数从而提高执行性能  容易维持数据完整性(Integrity) 相对占用少量的存储空间 提高应用系统的灵活性 数据重复性小 缺点  从事实表中查询数据时,维度过多时执行速度低下 具有信息不一致的隐患 存储重复数据 模型的灵活性差 需要大量的存储空间  结构复杂增加构建难度 »

用HAWQ轻松取代传统数据仓库(八) —— 大表分区

  一、HAWQ中的分区表        与大多数关系数据库一样,HAWQ也支持分区表。这里所说的分区表是指HAWQ的内部分区表,外部分区表在后面“外部数据”篇讨论。在数据仓库应用中,事 实表通常有非常多的记录,分区可以将这样的大表在逻辑上分为小的、更易管理的数据片段。HAWQ的优化器支持分区消除以提高查询性能。只要查询条件中可以 使用分区键作为过滤条件,那么HAWQ只需要扫描满足查询条件的分区 »

【转载】数据仓库的基本架构

 数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——源数据、数据仓库、数据应用:   从图中可以看出数据仓库的数据来源于 »

数据仓库简介

              数据仓库简介 1.        数据仓库的概念 数据仓库领域的权威W.H.Inmon给出了数据仓库的一个简短而全面的定义:数据仓库是一个面向主题、集成、时变、非易失的数据集合,是支持管理部门的决策过程。根据该定义,数据仓库具备以下四个关键特征: 1.1        面向主题(Subject Oriented)的数据集合 数据仓库通常围绕一些主题,如“产品”、“销售 »

Hive开发要知道数据仓库的四个层次设计

 数据仓库:数据仓库全面接收源系统数据,ETL进程对数据进行规范化、验证、清洗,并最终装载进入数据集市,通过数据集市支持系统进行数据查询、分析,整个数据仓库包含四大层次。 1.数据仓库的四个操作       ETL(extractiontransformation loading)负责将分散的、异构数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中。ETL 是实施 »

数据仓库的架构以及数据分层

数据仓库分层的原因 1通过数据预处理提高效率,因为预处理,所以会存在冗余数据 2如果不分层而业务系统的业务规则发生变化,就会影响整个数据清洗过程,工作量巨大 3通过分层管理来实现分步完成工作,这样每一层的处理逻辑就简单了   标准的数据仓库分层:ods(临时存储层),pdw(数据仓库层),mid(数据集市层),app(应用层) ods:历史存储层,它和源系统数据是同构的,而且这一层数据粒度是最细的 »