【发布时间】:2022-02-03 07:44:39
【问题描述】:
我尝试阅读了很多有关 databricks delta Lake 的信息。据我了解,它将 ACID 事务添加到您的数据存储中,并使用增量引擎加速查询性能。如果是这样,为什么我们需要其他不支持 ACID 事务的数据湖? Delta Lakes声称结合了数据湖和数据仓库的两个世界,我们知道由于目前对运营的支持,它还不能取代传统的数据仓库。但它应该取代数据湖吗?为什么需要有两份数据 - 一份在数据湖中,一份在三角洲湖中?
【问题讨论】:
-
Delta Lake 是一种数据湖。你说数据湖是指一些特定的数据湖产品吗?
-
嗨,是的,我的意思是 delta Lake 会取代其他没有 ACID 等功能的数据湖,比如 amazon s3、azure blob 存储等吗?
-
有些人可能将诸如amazon s3、azure blob storage之类的云存储称为数据湖。但在我看来,它们是更类似于单机世界中的文件系统的存储。 Delta Lake 实际上是在它们之上构建的,用于存储原始文件和元数据。像这样的问题通常会得到基于意见的答案,并且 Stack Overflow 不鼓励这种问题。最好在项目的邮件列表中问这个,比如groups.google.com/forum/#!forum/delta-users
标签: delta-lake