【发布时间】:2017-08-24 14:40:53
【问题描述】:
Apache Spark 如何检测重复行?
我问的原因是我想有一些不同的行为:
在用于重复检测的列集中,对于其中一些(类型为double),我希望重复检测基于两个值之间的差异低于某个阈值(由我)。
我想这可以使用crossJoin() 和适当的where 语句之后,但是,我希望有一个更优雅的解决方案?
谢谢!
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql pyspark-sql