【发布时间】:2019-08-06 08:32:12
【问题描述】:
我正在寻找一些关于 azure 提供的各种“大数据”技术堆栈组件的指导,用于我们正在进行的一个即将开展的项目。
简而言之,我们的平台会大量展示广告链接。我们记录印象数(链接呈现多少次),然后在每次点击时记录更丰富的数据。 (点击事件、时间戳、维度的url参数)
我们希望开始捕获更丰富的关于印象的遥测数据,以及当这种情况发生时我们的用户如何与 UX 组件交互。 (用户体验打开、滚动事件、用户体验关闭等...)
我完全理解这里没有一个正确答案,但我非常感谢其他人过去在类似情况下所做的一些指导,以及您在此过程中遇到的任何“问题”或“注意事项”,因此我们不会将时间投入到最终成为死胡同的技术上。
要求 - 需要能够处理大量的事件(每天数百万个事件) - 需要能够提取和汇总数据并将其放在可以报告的其他地方。
我们已对其进行过一次审核的技术。
- 数据工厂
- Azure 数据仓库
- 数据湖存储和分析 (U-SQL)
- Azure 数据块
- Azure 分析服务
- Azure 存储资源管理器
- HDInsight
就我们目前所发现的而言,DataFactory 似乎是处理任何 ETL 的明显候选者,从我们转储获取的数据的任何位置 -> 最终数据所在的位置。
SQL 数据仓库显然是报表数据的最终归宿,因为它可以使用标准 SQL/ODBC 连接连接到几乎任何报表解决方案。 (我们在内部使用 Tableau,但 PowerBI 可能是这里的一个选项)
除此之外,中间数据的处理/分析/转换似乎可以通过多种方式完成。
【问题讨论】: