数据仓库

数仓建模—建模工具PdMan(CHINER)介绍

数据仓库系列文章(持续更新) 数仓架构发展史 数仓建模方法论 数仓建模分层理论 数仓建模—宽表的设计 数仓建模—指标体系 数据仓库之拉链表 数仓—数据集成 数仓—数据集市 数仓—商业智能系统 数仓—埋点设计与管理 数仓—ID Mapping 数仓—OneID 数仓—AARRR海盗模型 数仓—总线矩阵 ... »

数据仓库(6)数仓分层设计

目前主流的数据仓库分层大多为四层,也有五层的架构,这里介绍基本的四层架构。 分别为数据贴源层(ods)、数据仓库明细层(dw)、多维明细层(dws)和数据集市层(dm)。 ... »

数仓建设 | ODS、DWD、DWM等理论实战(好文收藏)

本文目录: 一、数据流向 二、应用示例 三、何为数仓DW 四、为何要分层 五、数据分层 六、数据集市 七、问题总结 导读 数仓在建设过程中,对数据的组织管理上,不仅要根据业务进行纵向的主题域划分,还需要横向的数仓分层规范。本文作者围绕企业数仓分层展开分析,希望对你有帮助。 因文章太长,本文不是完结版 ... »

最新大厂数据湖面试题,知识点总结

本文是一篇数据湖的面试题,同时也是数据湖知识点的讲解 目录: 一、什么是数据湖 二、数据湖的发展 三、数据湖有哪些优势 四、数据湖应该具备哪些能力 五、数据湖的实现遇到了哪些问题 六、数据湖与数据仓库的区别 七、为什么要做数据湖?区别在于? 八、数据湖挑战 九、湖仓一体 十、目前有哪些开源数据湖组件 ... »

数据仓库(5)数仓Kimball与Inmon架构的对比

数据仓库主要有四种架构,Kimball的DW/BI架构、独立数据集市架构、辐射状企业信息工厂Inmon架构、混合Inmon与Kimball架构。不过不管是那种架构,基本上都会使用到维度建模。 <b>Kimball的DW/BI架构</b>,可以参考这篇文章 数据仓库(4)基于维度建模的KimBall架 ... »

数仓建模—OneID

今天是我在上海租房的小区被封的第三天,由于我的大意,没有屯吃的,外卖今天完全点不到了,中午的时候我找到了一包快过期的肉松饼,才补充了1000焦耳的能量。但是中午去做核酸的时候,我感觉走路有点不稳,我看到大白的棉签深入我的嘴里,我竟然以为是吃的,差点咬住了,还好我有仅存的一点意识。下午我收到女朋友给我 ... »

数据仓库—数据集成

这几天上海疫情严重了,居家办公了几天,后面如果去公司上班需要核酸证明,今天去做了个核酸,竟然是桶鼻子,卧槽。不过说实话,捅鼻子也没啥,这酸爽犹如灵魂出窍,全身通透,让人飘飘然而不知所措。做一次管3天,后面可能还要去做,其实我在想传说中的肛拭子是啥样,我倒真希望体验一下。。。 数据仓库系列文章(持续更 ... »

数据仓库分层架构

数据层的存储一般如下: Data Source 数据源一般是业务库和埋点,当然也会有第三方购买数据等多种数据来源方式。业务库的存储一般是Mysql 和 PostgreSql。 ODS 层 ODS 的数 »

xibuhaohao

大厂运维必备技能:PB级数据仓库性能调优

摘要:众所周知,数据量大了之后,性能是大家关注的一点,所以我们在业务开发的时候,特别关注性能,做为一个架构师,必须对性能要了解,要懂。才能设计出高性能的业务系统。 一、GaussDB分布式架构 所谓集群是将多台物理服务器组建成一个逻辑平台,对外展现一个集群平台的形式。 所谓分布式架构是将数据分而治之。以逻辑进行划分,将数据存放在不同的物理节点。 CN:协调节点 负责接收来自应用的访问请求,并向客 »

数据仓库(集市)之间共享维度表

经常有朋友问到一个问题:事实表和维度表是不是一定要在一个数据库里面呢? 为什么会有这样的问题呢?因为我们讲到,如果数据仓库足够大的话,可能会拆分为所谓的数据集市。而通常会按照所谓的业务模块的不同划分,例如人事管理的,销售管理,财务管理的等等。 这样做看起来不错,但随之而来又有一个问题了:这些数据库之间其实有点信息是共享的,例如员工信息。那么是不是每个数据集市中都要单独保存一份呢? 我想绝大部分情况 »

数据仓库规范

一. 数据仓库层次结构规范 1.1 基本分层结构 系统的信息模型从存储的内容方面可以分为,STAGE接口信息模型、ODS/DWD信息模型,MID信息模型、DM信息模型、元数据信息模型。 在各个信息模型 »

FanLeiData

如何从优化SQL入手提高数据仓库的ETL效率(转载)

1        引言 数据仓库建设中的ETL(Extract, Transform, Load)是数据抽取、转换和装载到模型的过程,整个过程基本是通过控制用SQL语句编写的存储过程和函数的方式来实现对数据的直接操作,SQL语句的效率将直接影响到数据仓库后台的性能。 目前,国内的大中型企业基本都具有四年以上计算机信息系统应用经验,积累了大量可分析的业务数据,这些信息系统中的数据需要通过搭建数据仓库 »

数据库和数据仓库的区别

数据库是面向事务的设计,数据仓库是面向主题设计的。数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。(维是看问题的角度,比如时间,部门,维表放的就是这些东西的定义,事实表里放着要查询的数据,同时 »

分层架构在数据仓库的应用

分层架构的特点 分层架构是运用最为广泛的架构模式,经典的如B/S架构、 MVC 架构。其特点如下: 优点: 分离开发人员的关注,每个开发人员可以只关注自己所负责的层次的事情,无需过多关注其它层级的东西; 解耦,降低依赖,上层只能依赖于下层; 可复用,可以将公共的部分下沉到同一个层级,上层可以复用公共 ... »

数据仓库走向灭亡?? - Cheney Shue

半年来一直在面试,面的很多BI工程师,一谈BI必谈DW。于是我问,为啥要搞DW,BI和DW啥关系?得到的答案无外乎BI是寄生在DW之上的报表工具,而DW是为决策支持的数据存储之类。但个人觉得DW这个始 »

esestt

从如何优化SQL入手,提高数据仓库的ETL效率

1        引言数据仓库建设中的ETL(Extract, Transform, Load)是数据抽取、转换和装载到模型的过程,整个过程基本是通过控制用SQL语句编写的存储过程和函数的方式来实现对数据的直接操作,SQL语句的效率将直接影响到数据仓库后台的性能。 目前,国内的大中型企业基本都具有四年以上计算机信息系统应用经验,积累了大量可分析的业务数据,这些信息系统中的数据需要通过搭建数据仓库平 »

python实现数据仓库ETL

通常讲的数据仓库ETL, 可以分为ETL和ELT两种实现方式.  ELT是在加载到仓库后, 再做数据转换.  ETL 是在加载之前完成转换, 落地的数据就是转换后的样子了.   ELT多使用在MPP架构的数据仓库平台上, 比如Teradata, greenplum, 主要考虑点是, MPP数据仓库数据处理能力强, 在加载后再做转换, 可以充分利用这一优势.  另外, Extract和Load过程很 »