【问题标题】:Azure Data Explorer (ADX) vs Polybase vs DatabricksAzure 数据资源管理器 (ADX) 与 Polybase 与 Databricks
【发布时间】:2020-09-14 20:01:56
【问题描述】:

问题

今天我发现了另一个名为 Azure Data Explorer (ADX) 的 Azure 服务。很抱歉这样的服务比较,除了ADX,我对所有的都很了解。我觉得有一个很大的功能覆盖,所以想知道 ADX 在 Azure 基础架构中的确切作用。

ADX 明显优于 Synapse/Databricks 的用例是什么?

我对 ADX 的理解

AFAIK,ADX 是一个集群(按小时计费,如 Databricks 或 Synapse,不像 ADLA),它为您处理数据库,并针对大规模流式摄取和即席查询进行了优化。它还支持性能更差但更便宜的外部表(您需要为 Blob/ADLS 存储付费)。

详情

我不明白为什么我们需要 ADX,如果:

  1. Azure Synapse 具有类似的定价模型(集群、每小时),它还支持大规模流式摄取和临时查询。 Azure Synapse 支持通过 Polybase 外部表查询 BlobStorage/ADLS。
  2. Databricks 是另一项能够执行此操作的服务。使用 Databricks Ingest 和 Delta Lake - 您可以摄取流式数据并以两种方式使用它们:流式传输和批处理方式。实际上,您可以使用交互式集群来为您处理临时查询。
  3. 此外,如果您想要实时分析 - 使用 Azure 流分析。如果您想要类似 Athena 的体验 - 使用 ADLA(仍然不支持 ADLS gen2)。

【问题讨论】:

    标签: azure databricks azure-sqldw azure-data-explorer polybase


    【解决方案1】:

    Azure 数据资源管理器专注于高速度、大容量高方差(大数据的 3 V)。它对流入的此类数据提供超快速的交互式查询。它原生支持 json 和文本,包括全文搜索和索引。

    它用于与传感活动和时间序列相关的广泛场景,涉及大量垂直领域:物联网、API 日志、事务监控和临时数据探索。

    Microsoft 提供 ADX 即服务,因为它是 Microsoft 用于其自己的遥测和所有分析解决方案的主要服务,即我们在安全、运营监控、游戏分析、产品洞察使用分析、物联网方面提供的服务, 联网车辆建立在 ADX 之上。您可以在我们的文档中找到完整列表。为清楚起见,SQL、Synapse、CosmosDB 将其遥测数据存储在 Azure 数据资源管理器中......

    SQL DW(AKA Synapse SQL 池)是一个优秀的数据仓库,实现了现代数据仓库模式。 ETL->策划数据模型->通过分析服务或 Power BI 加载和服务。
    ADX 用于实时分析,可将模式读取 (SOR) 应用于几秒钟前的新鲜数据。

    在替换用于日志、时间序列数据库等的基于 SOLR/Lucine 的变体时,将 ADX 视为一个完全托管的平台。

    在大型工作负载中试用它,您会发现它比其他替代方案便宜得多,而且功能更强大、性能更佳。

    如果您需要帮助,请联系我。

    【讨论】:

    • 我认为 Spark 和 Databricks 在 3V 上也表现出色。据我从您的回答中了解到,ADX 为您实时(或接近实时?)处理。您能否提供一个使用 ADX 比使用 Databricks/Spark 或 Flink 更好的用例?或者您可能参考了一篇介绍 ADX 架构细节的文章?
    • 我用 Spark 近乎实时地构建了它,它运行得非常好。对于实时,我想有人可能会使用 Flink 或 Kafka Streams。 ADX 何时以及为何优于这些工具?
    • ADX 对大型数据集的交互式查询显着加快。如果您使用批处理,请使用 spark。如果您想真正快速地查询新的大型数据集,即使对于非程序员来说,ADX 也更快、更容易使用。
    【解决方案2】:

    Azure 数据资源管理器别名 Kusto 专注于大容量数据摄取以及几乎实时的查询和分析。它是 Microsoft 为日志和遥测分析而发明的,但可用于其他目的,例如物联网、传感器数据或网络分析。 Azure 内部服务(如 Azure Monitor 和 Log Analytics)中使用了相同的技术。

    可以在 Synapse、Databricks 或 HDInsight 上构建类似的功能,但我认为这些工具适用于更广泛的用例。 ADX 的关注点非常狭窄。 ADX 确实支持查询 (“KQL”),但对 SQL 的支持非常有限。它适用于仅附加数据,而不适用于更新。它不是数据仓库、数据库或数据湖。

    Microsoft 材料是指名为 Kusto 的 ADX 背后的技术。更多信息请访问https://docs.microsoft.com/en-us/azure/data-explorer/kusto/concepts/。可以在这篇博文中找到很好的服务比较:https://vincentlauzon.com/2020/02/19/azure-data-explorer-kusto

    【讨论】:

    • 感谢您的回答!但是当有人说工具 X 就像工具 Y,但 X 有更狭窄的用例时——我想 X 应该非常擅长那个用例(优于 Y)。您能否提供详细信息/示例,说明为什么/何时 ADX 应替换 Nifi/Spark/Databricks/等。
    猜你喜欢
    • 1970-01-01
    • 2020-04-07
    • 1970-01-01
    • 2021-03-18
    • 2015-10-03
    • 2020-05-31
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多