【发布时间】:2018-05-05 01:47:29
【问题描述】:
我有一个 PySpark RDD。我想消除重复项 仅当“第 1 列”和“第 2 列”在下一行匹配时。这是数据的样子:
2,10482422,0.18
2,10482422,0.4
2,10482423,0.15
2,10482423,0.43
2,10482424,0.18
2,10482424,0.49
2,10482425,0.21
2,10482425,0.52
2,10482426,0.27
2,10482426,0.64
2,10482427,0.73
在上面的例子中,我只希望通过删除其他重复行来为每一行第三列的一个最大值
预期输出是:
2,10482422,0.4
2,10482423,0.43
2,10482424,0.49
2,10482425,0.52
2,10482426,0.64
2,10482427,0.73
我尝试创建一个数据框并使用df.dropDuplicates(),但它没有给出预期的答案。如何根据两列保持此 RDD 中的最大值?
这是一个 350 GB 的 RDD,任何最佳建议都会很棒。
【问题讨论】:
标签: python pyspark duplicates spark-dataframe rdd