【发布时间】:2021-03-05 13:53:30
【问题描述】:
我需要为 spark 数据框中的某些数据找到最顶层的父 id。
我确实有两列,如下所示,带有对象 ID 和父对象 ID。
object id 123 的父 obj id 为 456 并且它是一个对象 id,其父 id 为 789 ...并且以此类推。
要求是为每个对象 id 找到最顶层的父对象。
预期的输出如下所示。
我尝试创建临时表并使用 while 循环重写该表。但它似乎无法正常工作。
有什么方法可以达到这个要求吗?任何线索表示赞赏!
尝试使用以下问题中提供的解决方案,但它会持续执行很长时间,似乎在某个地方处于无限循环中! Spark DataFrame: find and set the main root for child
【问题讨论】:
标签: scala apache-spark apache-spark-sql