【发布时间】:2020-01-18 21:16:10
【问题描述】:
从这里Removing duplicates from rows based on specific columns in an RDD/Spark DataFrame,我们学习了如何根据一些特定变量删除重复的观察结果。如果我想以 RDD 的形式保存那些重复的观察结果,我该怎么办?如果 RDD 包含数十亿个观察值,我猜rdd.substract() 可能效率不高。那么除了使用rdd.substract()之外,还有其他方法可以使用吗?
【问题讨论】:
-
此链接可能会有所帮助:stackoverflow.com/questions/49559994/…