1.什么是数据仓库:

一个⾯面向主题的 (Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)反映历史变化(Time Variant)的数据集合,用于⽀持管理决策(Decision Making Support)。同时也是一个将源系统数据抽取、清洗、规格化、提交到维度数据存储的系统,为决策的制定提供查询和分析功能的支撑与实现。

2.为啥需要创建数据仓库

  • 1、集中化管理数据
  • 2、更高效的⽅式使用数据
  • 3、数据量巨大和数据复杂度冗杂
  • 4、数据驱动业务
  • 5、⼤数据分析来提升产品竞争⼒
  • 6、时刻知道业务发展情况

3.数据仓库架构图

数仓_若只是初见

补充:

1.什么是数据中台

广义的数据中台包括了数据技术,比如对海量数据进行采集、计算、存储、加工的一系列技术集合,数据中台包括数据模型,算法服务,数据产品,数据管理等等,和企业的业务有较强的关联性,是企业独有的且能复用的,比如企业自建的1000个基础模型,500个融合模型,1万个标签。它是企业业务和数据的沉淀,其不仅能降低重复建设,减少烟囱式协作的成本,也是差异化竞争优势所在。

参考链接:数据中台的详细介绍

2.什么是数据湖

维基百科:数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统,它按原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据(如关系型数据库中的表),半结构化数据(如CSV、日志、XML、JSON),非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)。

参考链接数据湖的介绍

3.数据湖与数据中台有什么区别

数据湖和数据仓库两者都广泛应用于大数据存储,但两者之间概念不可互换。数据湖是存储原始数据的池,目的仍没有明确。数据仓库存储结构化的、已过滤、处理的数据,用于特定分析目的。两种数据存储架构经常被混淆,起始两者之间差异大于共性。事实上,唯一共性都为了存储海量数据。了解两者区别很重要,因为它们服务于不同的目的,需要使用不同的视角进行理解。

下面是AWS对数据湖与数据仓库的区分:
数仓_若只是初见

相关文章:

  • 2022-12-23
  • 2021-04-05
  • 2021-10-28
  • 2021-12-24
  • 2022-12-23
  • 2022-12-23
  • 2021-09-28
猜你喜欢
  • 2021-06-19
  • 2021-08-04
  • 2022-01-09
  • 2022-02-13
  • 2022-01-06
  • 2021-08-19
相关资源
相似解决方案