【发布时间】:2019-06-27 22:27:06
【问题描述】:
简而言之
我有两个数据框和函数的笛卡尔积(交叉连接),它为这个产品的给定元素提供了一些分数。我现在想为第一个 DF 的每个成员获取第二个 DF 的几个“最佳匹配”元素。
详情
下面是一个简化的示例,因为我的真实代码有些臃肿,带有额外的字段和过滤器。
给定两组数据,每组都有一些 id 和 value:
// simple rdds of tuples
val rdd1 = sc.parallelize(Seq(("a", 31),("b", 41),("c", 59),("d", 26),("e",53),("f",58)))
val rdd2 = sc.parallelize(Seq(("z", 16),("y", 18),("x",3),("w",39),("v",98), ("u", 88)))
// convert them to dataframes:
val df1 = spark.createDataFrame(rdd1).toDF("id1", "val1")
val df2 = spark.createDataFrame(rdd2).toDF("id2", "val2")
对于来自第一个和第二个数据集的元素对,一些函数给出了它们的“匹配分数”:
def f(a:Int, b:Int):Int = (a * a + b * b * b) % 17
// convert it to udf
val fu = udf((a:Int, b:Int) => f(a, b))
我们可以创建两组的乘积并计算每对的分数:
val dfc = df1.crossJoin(df2)
val r = dfc.withColumn("rez", fu(col("val1"), col("val2")))
r.show
+---+----+---+----+---+
|id1|val1|id2|val2|rez|
+---+----+---+----+---+
| a| 31| z| 16| 8|
| a| 31| y| 18| 10|
| a| 31| x| 3| 2|
| a| 31| w| 39| 15|
| a| 31| v| 98| 13|
| a| 31| u| 88| 2|
| b| 41| z| 16| 14|
| c| 59| z| 16| 12|
...
现在我们想让这个结果按id1分组:
r.groupBy("id1").agg(collect_set(struct("id2", "rez")).as("matches")).show
+---+--------------------+
|id1| matches|
+---+--------------------+
| f|[[v,2], [u,8], [y...|
| e|[[y,5], [z,3], [x...|
| d|[[w,2], [x,6], [v...|
| c|[[w,2], [x,6], [v...|
| b|[[v,2], [u,8], [y...|
| a|[[x,2], [y,10], [...|
+---+--------------------+
但实际上我们只想保留少数(比如 3 个)“匹配项”,即那些得分最高(比如得分最低)的匹配项。
问题是
如何将“匹配”排序并减少到前 N 个元素?可能是关于collect_list和sort_array的东西,虽然我不知道如何按内部字段排序。
有没有办法确保在大输入 DF 的情况下进行优化 - 例如在聚合时直接选择最小值。我知道如果我在不使用 spark 的情况下编写代码,这可以轻松完成 - 为每个
id1保留小数组或优先级队列,并在应有的位置添加元素,可能会删除之前添加的一些元素。
例如交叉连接是一项昂贵的操作,这没关系,但我想避免将内存浪费在我将在下一步中删除的大部分结果上。我的真实用例处理条目少于 100 万个的 DF,因此交叉连接仍然可行,但由于我们只想为每个 id1 选择 10-20 个顶级匹配项,因此似乎非常希望不要在步骤之间保留不必要的数据.
【问题讨论】:
-
也许考虑使用窗口函数
rank来做到这一点?或者编写一个 udf 从您的 collect_set 中获取结果数组的前 3 个。
标签: scala apache-spark