【问题标题】:Is Azure Stream Analytics suitable for generating data warehouse fact and dimensions tables?Azure 流分析是否适合生成数据仓库事实和维度表?
【发布时间】:2016-05-21 01:17:55
【问题描述】:

我正在考虑通过Azure Stream Analytics 实现以下场景。

我的输入包括:

  1. Azure Event Hub 传入的事件。
  2. 与事件相关的参考数据。其中一些数据每天都在“缓慢变化”。

我需要加入事件和参考数据,处理它们并输出将构成“数据仓库”的表(以Power BI 作为消费者)。

输出将由:

  1. 存储最重要事件的事实表。
  2. 一些维度表,其中包含构成事实的值。

Azure 流分析是否适合这种工作? 在我看来,ASA 非常适合将事件从事件中心流保存到事实表中。 但是,使维度表保持最新的额外工作(即定期添加新值)并不适合。

我的分析正确吗?我应该为我的项目切换到 Azure Data Factory 吗?

【问题讨论】:

  • 流分析用于分析实时数据,不是 ETL。
  • 谢谢@PanagiotisKanavos :)。想详细说明在我的场景中分析和转换之间的关键区别是什么?
  • 就像任何 DQ、星型模式、报告数据库一样,分析是告诉你有多少 X 的东西。 ETL 是将数据加载到模式的内容。在这种特殊情况下,分析将告诉您一个窗口中有多少事件,或检测该窗口中的异常活动。虽然您可以使用分析 SQL 进行转换,但它非常繁琐(步骤是 CTE)且有限(最多 6 个)且成本高昂。 ETL 需要更多。
  • Urig,您能否分享一个假设但更具体的场景来反映您的需求?您是对的,ASA 非常适合在应用少量转换或聚合后从流中持久化事件。您可以结合使用 ASA 和 ADF,或者在某些情况下仅使用 ASA 来保持维度表的最新状态。
  • 发送@PanagiotisKanavos。如果您愿意将您的评论升级为答案,我很乐意接受。

标签: azure fact azure-stream-analytics azure-data-factory cortana-intelligence


【解决方案1】:

Azure 流分析是否适合这种工作?不是真的。Stream Analytics 是为在云端进行实时流处理而设计的。

正如您所指出的,保持维度表最新的额外工作 - 即定期添加新值 - 不适合 ASA(Azure 流分析)

对于这部分/功能,您可以使用 Azure 数据工厂 (ADF),它是一种基于云的数据集成服务,可编排和自动化数据的移动和转换。这就是你需要的。

此外,基于 Azure HDInsight Hadoop 的 ETL 方案支持,您可以在此处查看“ETL 赛车遥测数据工作流”示例https://msdn.microsoft.com/en-us/library/dn749886.aspx

【讨论】:

    猜你喜欢
    • 2011-02-25
    • 1970-01-01
    • 1970-01-01
    • 2019-04-25
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-09-04
    • 1970-01-01
    相关资源
    最近更新 更多