【发布时间】:2020-12-13 02:08:18
【问题描述】:
我有两个 rdd,我想用另一个的值过滤一个。
每个rdd的几个实例如下:
rdd1 = [((address1, date1),1), ((address5, date2),1), ((address1, date2),1), ((address2,date3),1)]
rdd2 = [(address1,1), (address1,1), (address2, 1), (address1, 1)]
期望的输出是:
joined_rdd = [((address1, date1),1),((address1, date2),1),((address2,date3),1)]
所以基本上我想将元组保留在 rdd1 中,如果该元组中的地址值存在于 rdd2 中。
【问题讨论】:
标签: python apache-spark pyspark rdd