【发布时间】:2022-01-22 01:55:06
【问题描述】:
我在 scala dataframeA(大)和 dataframeB(小)中有两个数据框 我需要获取与 3 个不同连接键中的任何一个匹配的所有 dataframeA 行(带有 dataframeB 列)。
类似的东西,
Val joinedDF = dataframeA.join($"cid_a" === $"cid_b" || $"tax_id_a" === $"tax_id_b" || $"group_id_a" === $"group_id_b", "left")
这是可行的,但所用时间大约是引入此联接之前所用时间的 5 倍。 在 spark scala 中实现这种加入的更好方法是什么?
【问题讨论】:
-
较小的尺寸是多少?不清楚如何有效地处理 OR,最好有多个查询
-
请澄清您的具体问题或提供其他详细信息以准确突出您的需求。正如目前所写的那样,很难准确地说出你在问什么。
标签: scala apache-spark join