【发布时间】:2020-03-18 08:05:12
【问题描述】:
我有一个要求,我需要连接数据框 A 和 B 并计算一列,并在具有不同连接条件的相同 2 个数据框之间的另一个连接中使用该计算值。
例如:
DF_Combined = A_DF.join(B_DF,'Join-Condition',"left_outer").withColumn(col1,'value')
完成上述操作后,我需要进行相同的连接,但使用之前连接中计算的值。
DF_Final=A_DF.join(B_DF,'New join COndition',"left_outer").withcolumn(col2,DF_Combined.col1*vol1*10)
当我尝试这样做时,我遇到了笛卡尔积问题。
【问题讨论】:
-
真的不清楚你在问什么。你能用一些更具体的例子来扩展你的问题吗?表格中的几行示例数据(仅限相关列)可能会有所帮助,以及您想要达到的结果。
标签: scala apache-spark join apache-spark-sql