【问题标题】:lakeFS, Hudi, Delta Lake merge and merge conflictslakeFS、Hudi、Delta Lake 合并和合并冲突
【发布时间】:2021-10-03 17:34:04
【问题描述】:

我正在阅读有关 LakeFS 的文档,但现在还不清楚什么是合并甚至合并冲突。

假设我使用 Apache Hudi 对单个表进行 ACID 支持。我想介绍多表 ACID 支持,为此我想将 LakeFS 与 Hudi 一起使用。

如果我对所有内容的理解都正确,那么lakeFS 是一种与数据无关的解决方案,并且对数据本身一无所知。 lakeFS 仅建立边界(版本控制)并以某种方式调节对数据的并发访问..

所以合理的问题是 - 如果lakeFS 与数据无关,它如何支持合并操作?就lakeFS而言,合并本身意味着什么?那里有可能发生合并冲突吗?

【问题讨论】:

    标签: delta-lake data-lake apache-hudi lakefs data-lakehouse


    【解决方案1】:

    您确实正确理解了所有内容。您可以在branching model 页面中看到,lakeFS 当前与数据无关,仅依赖于分层目录结构。当两个分支更新同一个文件时会发生冲突。 这种行为适合大多数数据工程师 CI/CD 用例。

    如果您使用 Delta Lake 并从两个不同的分支对同一个表进行了更改,仍然会发生冲突,因为这两个分支更改了日志文件。为了解决冲突,您需要放弃其中一个变更集。 诚然,这不是最好的用户体验,目前正在努力。您可以在 roadmap 文档中了解更多信息。

    【讨论】:

    • 感谢您的回答!
    猜你喜欢
    • 2020-03-09
    • 2020-11-17
    • 2019-10-18
    • 1970-01-01
    • 2020-02-28
    • 2011-08-20
    • 2017-03-04
    • 2011-03-13
    • 2017-07-24
    相关资源
    最近更新 更多