【问题标题】:Databricks + ADF + ADLS2 + Hive = Azure SynapseDatabricks + ADF + ADLS2 + Hive = Azure Synapse
【发布时间】:2021-12-24 19:30:13
【问题描述】:

我没有使用 Azure Synapse 的经验,但我的理解是,这与 SQL DWH 中的 Databricks、ADF、ADLS2 和 Hive 相同,都在一个名称不同的工作区中。

我错了吗?

【问题讨论】:

    标签: azure apache-spark azure-sql-database azure-databricks azure-synapse


    【解决方案1】:

    是的,在许多情况下,Azure Synapse 和 Databricks 提供相同的大数据分析方法,但这些服务之间也几乎没有区别。

    现在,随着 Synapse 中的新功能,我们看到了一些与 Databricks 中相似的功能(例如 Spark、Delta),这引发了 Synapse 与 Databricks 的比较以及何时使用哪个的问题。

    • 是的,两者都有 Spark,但是……

      • 数据块

        • 内置了专有的数据处理引擎(Databricks Runtime) 在高度优化的 Apache Spark 版本上提供 50 倍 性能
        • 已经支持 Spark 3.0
        • 允许用户选择启用 GPU 的集群,并在标准和高并发集群模式之间进行选择
      • 突触

        • 开源 Apache Spark(因此不包括 Databricks Runtime 的所有功能)
        • 内置支持 .NET for Spark 应用程序
    • 是的,两者都有笔记本

      • 突触

        • Nteract 笔记本

        • 有共同创作的笔记本,但一个人需要在另一个人看到更改之前保存笔记本

        • 没有自动版本控制

      • 数据块

        • Databricks 笔记本

        • 具有实时共同创作(两位作者实时看到更改)自动版本控制

    • 是的,两者都可以访问数据湖中的数据

      • 突触

        • 创建 Synapse 时,您可以选择一个数据湖作为您的 主数据湖(可以直接从脚本和 笔记本)
      • 数据块

        • 您需要先挂载数据湖,然后才能使用它
    • 是的,两者都利用 Delta

      • 突触

        • Delta Lake 是开源的
      • 数据块

        • 拥有基于开源但提供一些额外优化的 Databricks Delta
    • 不,它们不一样

      • 突触

        • 既有传统的 SQL 引擎(适合传统的 BI 开发人员)也有 Spark 引擎(适合数据科学家、分析师和工程师)

        • 是数据仓库(即 Synapse Analytics)+ 接口工具(即 Synapse Studio)

      • 数据块

        • 不是数据仓库工具,而是基于 Spark 的笔记本工具 专注于 Spark、Delta Engine、MLflow 和 MLR
    • 不,它们提供的开发者体验不同

      • 突触

        • 目前仅通过 Synapse Studio(而非本地 IDE)为 Spark 开发提供开发者体验

        • Synapse Studio Notebooks 中尚未集成 Git

      • 数据块

        • 在 Databricks UI、Databricks Connect(即从 Visual Studio Code、Pycharm 等远程连接)和 Databricks 中的 Jupyter 和 RStudio UI 中提供开发人员体验

    检查When to use Synapse and when Databricks?

    【讨论】:

    • 这是错误的:“使用前需要挂载数据湖” -> 可以直接从笔记本查询数据湖,只需正确设置Spark属性
    • 这也是不正确的:“不是数据仓库工具,而是基于 Spark 的笔记本工具” - 请参阅面向 BI 开发人员的 Databricks SQL
    猜你喜欢
    • 2021-12-29
    • 2022-07-27
    • 2021-07-16
    • 2021-03-13
    • 2023-03-07
    • 2021-09-05
    • 1970-01-01
    • 2022-10-05
    • 2021-06-04
    相关资源
    最近更新 更多