【发布时间】:2017-10-19 13:33:56
【问题描述】:
我有一个包含 4 列的数据框。
数据框示例
id1 id2 id3 id4
---------------
a1 a2 a3 a4
b1 b2 b3 b4
b1 b2 b3 b4
c1 c2 c3 c4
b2
c1
a3
a4
c1
d4
一行中有两种数据,要么所有列都有数据,要么只有一列。
我想对所有列执行不同的功能,例如在比较行之间的值时,它只会比较一行中存在的值而不考虑空值。
输出数据帧应该是
id1 id2 id3 id4
a1 a2 a3 a4
b1 b2 b3 b4
c1 c2 c3 c4
d4
我在 spark 中查看了多个 UDAF 示例。但无法修改。
【问题讨论】:
-
为什么不对所有四列都使用过滤方法?
-
过滤器如何帮助我?
-
请看下面我的回答
-
请不要在得到答案后修改您的问题 - 这可能会使它们无效。最好打开一个新问题。
-
只是加点容易理解。
标签: scala apache-spark apache-spark-sql spark-dataframe