【发布时间】:2023-03-23 23:53:02
【问题描述】:
现在我有一个包含 1 个分区的测试数据,在该分区内它有 2 个 parquet 文件
如果我将数据读取为:
val df = spark.read.format("delta").load("./test1510/table@v1")
然后我得到 10,000 行的最新数据,如果我阅读:
val df = spark.read.format("delta").load("./test1510/table@v0")
然后我得到 612 行,现在我的问题是:我怎样才能只查看在版本 1 中添加的那些新行,即 10,000 - 612 = 9388 行
简而言之,在每个版本中,我只想查看哪些数据发生了变化。总体而言,在 delta 日志中,我可以看到 json 文件,并且在 json 文件中,我可以看到它在每个版本中创建了单独的 parquet 文件,但是如何在代码中查看它?
我正在使用 Spark 和 Scala
【问题讨论】:
-
在第二组 (v0) 中不存在键的情况下加入两个怎么样?
标签: scala apache-spark delta delta-lake data-quality