数据仓库

数据仓库(六)---分布式SQL查询引擎---presto介绍

我们在之前的文章中已经学习了数据仓库hive,如果要对数据仓库进行交互查询,则需要交互查询的引擎用于提高查询效率。本章介绍presto。 简介 Presto是一个开源的分布式SQL查询引擎,适用于实时交互式分析查询,支持海量的数据;主要是为了解决商业数据仓库的交互分析,和处理速度低下的问题。它支持标准的ANSI SQL,包括复杂查询、聚合(aggregation)、连接(join)和窗口函数(wi »

详解数据中台的底层架构逻辑

​ 数据中台到底是什么,几年过去了,也一直众说纷纭。 笔者认为数据中台不应该是一个单纯的系统或者是一个软件工具,而应该是一套架构、一套数据流转模式。 数据中台需要采集数据作为原材料进行数据加工、数据建模,然后分门别类地储存,再根据实际的业 务场景,打造各类数据服务(含数据应用平台)从而实现对业务的赋 ... »

数据仓库数据中台区别在哪?

随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发展,相关概念如雨后春笋一般应运而生,如从最初决策支持系统(DDS)到商业智能(BI)、数据仓库、数据湖、数据中台等。今天多变的市场竞争环境,企业也正在寻找具备创新性、灵活性的中台能力。 什么是数据中台? 数据中台最核心的是OneData体系。这个体系实质上是一个数据管理体系,包括全局数据仓库规划、数据规范定义、数据建模研发、数据连接萃取、 »

对于数据仓库建立多维模型思考

对于数据仓库建立多维模型思考 首先要理解的一个问题就是,什么叫做多维模型? 就是使用一种方法来将现实世界的事物进行抽象,概括的一种方法。 对于多维的理解:像是写记叙文中需要的时间,地点,人物这几个基本要素,有这样的基本要素/限定条件,才能较为精确,完整的描述一件事情。 同样对于一条数据而言,数据本身没有意义,当你从不同维度加以修饰限定,加工出来的数据,对于数据仓库来说有这就是建立多为模型的意义所在 »

关于数据仓库工程师的一般面试题目

面试功略:数据仓库工程师经常遇到的题目什么叫数据仓库?(相信inmon的数据仓库概念的四个特点是最基本的吧,当然需要加上自己的理解) 数据仓库和数据库有什么区别?(事务性数据库和决策支持数据库的区别, »

zzjhn

数据仓库模型ETL架构(DWI/DWR/DM)

1.DWI DWI:数据湖、数据砥柱,一般存放在HDFS 数据仓库的基础数据来源,各种杂七杂八的数据 关键点:数据清洗、数据整合、异常处理、增量获取 ETL:E-数据抽取、数据清洁、格式转换,T-生成 »

muphy

数据仓库系列之ETL过程和ETL工具

上周因为在处理很多数据源集成的事情一直没有更新系列文章,在这周后开始规律更新。在维度建模中我们已经了解数据仓库中的维度建模方法以及基本要素,在这篇文章中我们将学习了解数据仓库的ETL过程以及实用的ET »

fly-bird

为什么要维度建模【数据仓库】

凡是建设数据仓库,一定会提到维度建模方法。这一方法是Kimball最先提出的,其最简单的描述就是,按照事实表、维度表来构建数据仓库、数据集市。在维度建模方法体系中,维度是描述事实的角度,如日期、商品、地址等,事实是要度量的指标,如用户数、销售额等。按照一般书籍的介绍,维度建模还会分为星型模型、雪花模型等,各有优缺点,但很少直接回答一个问题,也就是数据仓库为什么要采用维度建模? 这个问题的基本判断在 »

数据仓库设计

数据仓库设计 1、 维度建模基本概念 维度表(dimension) 事实表(fact table) 2、维度建模三种模式 2.1 星型模式 2.2 雪花模式 2.3. 星座模式 1、 维度建模基本概念 维度建模(dimensional modeling)是数据仓库建设中的一种数据建模方法。专门用于分析型数据库、数据仓库、数据集市建模的方法。 维度表(dimension) 维度是 »

大数据之路-数据仓库概述

原来在学校实验室也进行过开发工作,有一定的项目经验,后来也靠这些项目经验以实习生的身份加入了现公司。 但是万万没想到,加入的是大数据部门啊,导致现在一直在补大数据相关的知识。 最后悔的是之前也有参加过一个大数据的特色班,可惜那时候没好好学,一直忙着实验室的Java后台的一些项目,难受~ 好了,牢骚也发完了。今天也把之前的一些课件翻了出来,重新学习一下,然后对数据仓库进行一个理解和总结。 本文主要分 »

数据仓库体系规划及实施流程

一、前言 数仓规划是数仓建设的蓝图,涵盖从需求分析开始到最终的数仓评估验收整个环境;数仓规划之所以重要,是因为它是描述了数据流动的概念性框架,为元数据管理奠定了基础,对数据加工过程的理解、数仓建设的交 »

SAPBI

大数据开发---数据仓库技术

1、什么是数据仓库 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。 2、数据仓库的特点 a.数据仓库的数据是面向主题的与传统数据库面向应用进行数据组织的特点相对应,数据仓库中的数据是面向主 »

搭建数据仓库第03篇:业务建模和概念模型设计

目录 前言 业务建模 概念模型 小结 前言 上一篇在数据仓库在技术架构设计和产品选择方面进行了一些总结。从这一篇将开始数据路径上的学习和思考吧。数据仓库作为一种产品,在不同的公司或者部门设计出来是不一 »

benchen

python生成数据仓库日期维度表

设计一张日期维度表 表名称:DIM_PUB_DATE 具体属性值: 字段名称 字段类型 字段描述 示例 ds string Id(主键) 20210624 d_date string 日期 2021- »

xiongmozhou

银行数据仓库体系实践(18)--数据应用之信用风险建模

信用风险 银行的经营风险的机构,那在第15节也提到了巴塞尔新资本协议对于银行风险的计量和监管要求,其中信用风险是银行经营的主要风险之一,它的管理好坏直接影响到银行的经营利润和稳定经营。信用风险是指交易 »

xiaojianblogs

数据仓库-拉链表, 流水表, 全量表, 增量表, 切片表

数据仓库-拉链表, 流水表, 全量表, 增量表, 切片表 1 增量表1.1 概念 增量表:新增数据,增量数据是上次导出之后的新数据。比如说,从24号到25号新增了那些数据,改变了哪些数据,这些都会存储 »

zhuozige