【问题标题】:Confusion About Delta Lake关于三角洲湖的困惑
【发布时间】:2022-02-03 07:44:39
【问题描述】:

我尝试阅读了很多有关 databricks delta Lake 的信息。据我了解,它将 ACID 事务添加到您的数据存储中,并使用增量引擎加速查询性能。如果是这样,为什么我们需要其他不支持 ACID 事务的数据湖? Delta Lakes声称结合了数据湖和数据仓库的两个世界,我们知道由于目前对运营的支持,它还不能取代传统的数据仓库。但它应该取代数据湖吗?为什么需要有两份数据 - 一份在数据湖中,一份在三角洲湖中?

【问题讨论】:

  • Delta Lake 是一种数据湖。你说数据湖是指一些特定的数据湖产品吗?
  • 嗨,是的,我的意思是 delta Lake 会取代其他没有 ACID 等功能的数据湖,比如 amazon s3、azure blob 存储等吗?
  • 有些人可能将诸如amazon s3、azure blob storage之类的云存储称为数据湖。但在我看来,它们是更类似于单机世界中的文件系统的存储。 Delta Lake 实际上是在它们之上构建的,用于存储原始文件和元数据。像这样的问题通常会得到基于意见的答案,并且 Stack Overflow 不鼓励这种问题。最好在项目的邮件列表中问这个,比如groups.google.com/forum/#!forum/delta-users

标签: delta-lake


【解决方案1】:

Delta Lake 是一种产品(如 Redshift),而不是一种概念/方法/理论(如维度建模)。 与各行各业的任何产品一样,针对该产品的某些声明将是真实的,而有些则将是营销宣传。产品所声称的好处是否实际上使其优于替代产品会因用例而异。

问为什么除了 Delta Lake 之外还有其他数据湖解决方案,有点像问为什么世界上有不止一个 DBMS。

【讨论】:

  • 其实 delta Lake 不是一个产品,它是一个基于 parquet 开放标准的开放标准。 Redshift 可以选择支持它。 Databricks 的贡献是 spark 支持它。
【解决方案2】:

在我个人的情况下,已经有一个数据湖,一个 sybase IQ,但与我可以通过 spark to delta 执行的查询相比,它的性能很差,速度是一个重要因素,在分区表中它非常出色

【讨论】:

    【解决方案3】:

    Delta Lake 是一个开放标准。酸性事务是指中途失败的写入。交易是一种安全机制。核心支持在 spark 中,但其他工具增加了对 Delta Lake 的支持。 Delta Lake 不是产品。还有湖屋设计,它再次不是产品,而是构建数据湖的一种方式。如果您遵循这些原则,您可以使用任何技术。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-08-21
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-05-17
      • 2020-03-06
      相关资源
      最近更新 更多