【发布时间】:2020-02-07 06:34:05
【问题描述】:
假设我的 dfs 有两个列:id (int) 和 names (array[string])
df1:
1 []
3 ['alice']
4 ['bob']
df2:
1 ['jack']
2 ['breanna']
3 []
df3:
1 ['anna']
3 ['rob', 'jerry']
4 []
我想将它们全部组合成:
df_union:
1 ['jack', 'anna']
2 ['breanna']
3 ['alice','rob','jerry']
4 ['bob']
这是我为提供帮助而制作的 udf:
def appendReasonUdf =
udf((names: Seq[String], newNames: Seq[String]) => names ++ newNames)
不确定下一个最佳行动方案是什么。
df1.union(df2) * insert code to special handle the names col ??? *
【问题讨论】:
标签: scala dataframe apache-spark user-defined-functions