【问题标题】:Data Vault Modelling数据保险库建模
【发布时间】:2021-01-29 01:46:06
【问题描述】:

假设以下数据架构: 源系统 -> 数据仓库(使用数据仓库模型)-> 数据虚拟化 -> 消费层(例如,BI 工具和报告)

我了解到,对于数据保险库,关键原则之一是加载原始数据并保存来自所有来源的记录 - 因此无需出于可追溯性/审计目的进行重复数据删除或转换。如果这是真的,转变会发生在哪里?

【问题讨论】:

    标签: data-modeling datamodel data-vault


    【解决方案1】:

    是的,这是真的,“原始”数据保险库会保留加载时源系统上的记录。

    但还有另一个概念,即“业务”数据仓库。这是所有逻辑和转换发生的地方。业务数据库不是原始数据库的完整副本,但您可以创建 hub/link/sat/pit/bridge 来实现满足您需求的逻辑。

    这样,从长远来看,它可以帮助您。例如,如果您需要在明年更改业务规则,您仍然拥有过去特定时间特定源系统的原始数据。如果您的逻辑有错误,您仍然拥有原始数据。

    【讨论】:

      【解决方案2】:

      根据我的经验,通常你有这样的架构:

      1. 原始源(从您的 OLTP 数据源复制)
      2. 暂存(现在作为 Datalake 中的持久暂存区,因为它比关系数据库便宜)
      3. Raw Vault(应用所谓的硬规则,例如数据类型更改)
      4. Business Vault(应用所谓的软规则、所有业务逻辑、聚合、串联......)
      5. 信息集市(数据集市有时会虚拟化,但并非总是如此……通常是星形/雪花模式)
      6. 立方体/表格模型
      7. BI 工具

      有关 Raw Vault 和 Business Vault 之间区别的更多信息,您可以在此处找到:Datavault - hard rules (rawvault) vs soft rules (businessvault)

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2020-12-15
        • 1970-01-01
        • 1970-01-01
        • 2019-03-20
        • 2023-03-02
        • 2020-01-06
        • 2016-12-28
        • 1970-01-01
        相关资源
        最近更新 更多