【发布时间】:2026-02-24 02:10:01
【问题描述】:
SparkR 是否包含 scala 中存在的 dropDuplicates 函数(根据特定列删除重复行)?
我在 SOF 中遇到了这个answer。但是我们没有使用 GroupBy,而是在 SparkR 中有一个 dropDuplicates 的函数吗?
【问题讨论】:
标签: apache-spark sparkr
SparkR 是否包含 scala 中存在的 dropDuplicates 函数(根据特定列删除重复行)?
我在 SOF 中遇到了这个answer。但是我们没有使用 GroupBy,而是在 SparkR 中有一个 dropDuplicates 的函数吗?
【问题讨论】:
标签: apache-spark sparkr
要按所有列执行,它是distinct
distinct(x)
或
unique(x)
如您所说,要“基于特定列”执行此操作,最好的选择是 GroupBy,因为 spark 无法决定要保留哪一个“不明确”记录。
【讨论】: