关于三角洲湖的困惑答案

【问题标题】：Confusion About Delta Lake关于三角洲湖的困惑
【发布时间】：2022-02-03 07:44:39
【问题描述】：

我尝试阅读了很多有关 databricks delta Lake 的信息。据我了解，它将 ACID 事务添加到您的数据存储中，并使用增量引擎加速查询性能。如果是这样，为什么我们需要其他不支持 ACID 事务的数据湖？ Delta Lakes声称结合了数据湖和数据仓库的两个世界，我们知道由于目前对运营的支持，它还不能取代传统的数据仓库。但它应该取代数据湖吗？为什么需要有两份数据 - 一份在数据湖中，一份在三角洲湖中？

【问题讨论】：

Delta Lake 是一种数据湖。你说数据湖是指一些特定的数据湖产品吗？
嗨，是的，我的意思是 delta Lake 会取代其他没有 ACID 等功能的数据湖，比如 amazon s3、azure blob 存储等吗？
有些人可能将诸如amazon s3、azure blob storage之类的云存储称为数据湖。但在我看来，它们是更类似于单机世界中的文件系统的存储。 Delta Lake 实际上是在它们之上构建的，用于存储原始文件和元数据。像这样的问题通常会得到基于意见的答案，并且 Stack Overflow 不鼓励这种问题。最好在项目的邮件列表中问这个，比如groups.google.com/forum/#!forum/delta-users

标签： delta-lake

【解决方案1】：

Delta Lake 是一种产品（如 Redshift），而不是一种概念/方法/理论（如维度建模）。与各行各业的任何产品一样，针对该产品的某些声明将是真实的，而有些则将是营销宣传。产品所声称的好处是否实际上使其优于替代产品会因用例而异。

问为什么除了 Delta Lake 之外还有其他数据湖解决方案，有点像问为什么世界上有不止一个 DBMS。

【讨论】：

其实 delta Lake 不是一个产品，它是一个基于 parquet 开放标准的开放标准。 Redshift 可以选择支持它。 Databricks 的贡献是 spark 支持它。

【解决方案2】：

在我个人的情况下，已经有一个数据湖，一个 sybase IQ，但与我可以通过 spark to delta 执行的查询相比，它的性能很差，速度是一个重要因素，在分区表中它非常出色

【讨论】：

【解决方案3】：

Delta Lake 是一个开放标准。酸性事务是指中途失败的写入。交易是一种安全机制。核心支持在 spark 中，但其他工具增加了对 Delta Lake 的支持。 Delta Lake 不是产品。还有湖屋设计，它再次不是产品，而是构建数据湖的一种方式。如果您遵循这些原则，您可以使用任何技术。

【讨论】：