【发布时间】:2021-08-05 20:57:09
【问题描述】:
我有一个包含两列 id1, id2 的 DataFrame,我想要计算这两列不同值的数量。本质上这是count(set(id1+id2))。
如何使用 PySpark 做到这一点?
谢谢!
请注意,这不是重复的,因为我希望 PySpark 计算 count()。当然可以获取id1_distinct 和id2_distinct 两个列表并将它们放在set() 中,但在我看来,在处理大数据时这不是正确的解决方案,而且它并不是真正符合PySpark 精神
【问题讨论】:
标签: pyspark