数据仓库架构笔记

数据仓库的目的：

构建面向分析的集成化数据环境，为企业提供决策支持（decision support）。数据仓库的数据来源于外部，并且开放给外部应用，因此数据仓库的基本架构主要包含数据流入流出的过程，可以分为三层——源数据、数据仓库、数据应用

数据仓库架构笔记

ETL解释：

数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是ETL（抽取extra,转化transfer,装载load）的过程，ETL是数据仓库的流水线。

数据源抽取extra解释：

抽取顾名思义，就是抽取数据到数据仓库的过程，以亿信abi举例，抽取一般包含这四种方式：

1.连接数据库进行抽取数据，包含云上数据库以及线下数据库，主要有mysql，oracle，gbase等

2.使用文件数据源，例如excel、txt、csv、db等文件

3.使用api接口调用数据源，输入数据源名称，接口地址，请求类型，编码utf-8，格式json

4.第三方数据源：主要是微信小程序，具体怎么使用不太清楚

数据仓库转化transfer解释：

所有抽取的数据必须转换为数据仓库可用的数据，拥有可以用来进行战略决策的信息，是数据仓库最根本的原则。

数据转换的基本任务：选择、分离/合并、转化、汇总和丰富。

数据转换的主要类型：格式修正、字段解码、计算值和导出值、单个字段的分离、信息的合并、特征集合转化、度量单位的转化、日期/时间转化、汇总和键的重新构造。附一张bi图

数据仓库架构笔记

维度属性的转换：

如何实施转换：使用转化工具，自动的工具会提高效率和准确性，并且转换参数和规则会被作为元数据存储起来，但是初始成本较高，而且也不是所有的转换都能使用工具实现；手工技术，这种方法会带来复杂的编码和测试，而且元数据比较难处理。

数据装载load：

数据装载有三种类型：初始装载、增量装载和完全刷新。

数据准备好之后，有四种把数据应用到数据仓库的方式：

装载：青空原有表再把数据装载进去；

追加：直接往表里加数据，当一个输入记录与已经存在记录重复时，需要定义时丢弃还是插入一条新的记录；

破坏性合并：如果输入记录的主键与一条已经存在的记录的建相互匹配，那么就对匹配的目标记录进行更新；

建设性合并：如果输入记录的之间与已有记录的键匹配，那么就保留已有的记录加入输入的记录。

数据在初始装载完成后，可以通过更新和刷新两种方法对数据仓库的数据进行维护：

更新：对数据源中增加的变化的应用；

刷新：在特定周期中完全重新装载。

如果需要更新的记录数总数的25%，可能就需要考虑使用刷新的方法