【发布时间】:2022-01-28 04:13:28
【问题描述】:
我想在某个时间戳/版本之后读取增量数据。逻辑here建议读取整个数据并读取特定版本,然后找到增量。由于我的数据很大,我宁愿不读取整个数据,如果能够以某种方式仅读取某个时间戳/版本之后的数据。
有什么建议吗?
【问题讨论】:
-
需要特定时间后的数据,还是特定时间的数据快照?
-
@AlexOtt 我需要数据。但是数据快照到底是什么意思?
-
Delta 中的数据按版本组织 - 但这是给定时间段内数据的快照,可能包含不同的时间戳等。
标签: apache-spark pyspark delta-lake