【问题标题】:How do you decide on the most appropriate big data processing tech stack in Azure?您如何决定 Azure 中最合适的大数据处理技术堆栈?
【发布时间】:2019-08-06 08:32:12
【问题描述】:

我正在寻找一些关于 azure 提供的各种“大数据”技术堆栈组件的指导,用于我们正在进行的一个即将开展的项目。

简而言之,我们的平台会大量展示广告链接。我们记录印象数(链接呈现多少次),然后在每次点击时记录更丰富的数据。 (点击事件、时间戳、维度的url参数)

我们希望开始捕获更丰富的关于印象的遥测数据,以及当这种情况发生时我们的用户如何与 UX 组件交互。 (用户体验打开、滚动事件、用户体验关闭等...)

我完全理解这里没有一个正确答案,但我非常感谢其他人过去在类似情况下所做的一些指导,以及您在此过程中遇到的任何“问题”或“注意事项”,因此我们不会将时间投入到最终成为死胡同的技术上。

要求 - 需要能够处理大量的事件(每天数百万个事件) - 需要能够提取和汇总数据并将其放在可以报告的其他地方。

我们已对其进行过一次审核的技术。

  1. 数据工厂
  2. Azure 数据仓库
  3. 数据湖存储和分析 (U-SQL)
  4. Azure 数据块
  5. Azure 分析服务
  6. Azure 存储资源管理器
  7. HDInsight

就我们目前所发现的而言,DataFactory 似乎是处理任何 ETL 的明显候选者,从我们转储获取的数据的任何位置 -> 最终数据所在的位置。

SQL 数据仓库显然是报表数据的最终归宿,因为它可以使用标准 SQL/ODBC 连接连接到几乎任何报表解决方案。 (我们在内部使用 Tableau,但 PowerBI 可能是这里的一个选项)

除此之外,中间数据的处理/分析/转换似乎可以通过多种方式完成。

【问题讨论】:

    标签: azure bigdata


    【解决方案1】:

    既然你已经提到没有一个单一的答案,我会给你一个不完整的答案:-)

    关于#3,数据湖存储和分析(U-SQL)。我不会打赌分析部分,因为这方面没有任何动静,而且有传言说它被悄悄搁置了。

    关于#6,Azure 存储资源管理器。这是一个工具,而不是一个服务。您可能指的是 Azure (Blob) 存储。 Blob 存储是用于大量数据的廉价且高效的存储,但对于分析,您最好使用 Azure Data Lake Store 或它的 Gen 2 版本,它是 Data Lake Store 和 Blob 存储的混合。 Azure 数据块可以在此处存储其数据。

    我认为您对#1 Azure 数据工厂的观察是正确的。 Azure Data Bricks 也常用于提取和转换,您可以在 Data Factory Pipeline 中运行 Azure Data Bricks 笔记本。

    也许this vid 也会帮助您做出决定。

    【讨论】:

    • 感谢这位彼得。感谢反馈。将避免 DLS & Analytics 这样。这真的是我的恐惧,我们会在一个特定的技术堆栈上下注,它要么会在不久之后 EOL,要么我们会发现它无法完成我们需要的某些关键部分.
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2016-03-07
    • 2011-07-31
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-04-22
    • 2011-11-20
    相关资源
    最近更新 更多