【发布时间】:2019-06-12 16:33:27
【问题描述】:
我想在 sparklyr 数据帧上填写值(用以前的值替换 NA),该字段包含字符串。
本质上我想改变这个:
ID, String
1 a
2 NaN
3 b
4 NaN
到这里:
ID, String
1 a
2 a
3 b
4 b
有没有办法在 sparklyr 中做到这一点?
【问题讨论】:
-
在链接的 github 问题中,他们正在使用 cummax 为数字列解决此问题,不确定如何将此解决方案应用于字符串列。
-
另外,我可能读错了,但它似乎假设数字将在列中上升,并且只需要最大的数字直到该点才能填充。
-
对于像
sparklyr这样的高级API,没有直接的解决方案可以达到预期的结果并横向扩展,以防不应用分组。请注意,链接问题中的解决方案根本无法扩展,如果您采用这种方式,您也可以使用纯 R data.frame - 请参阅Avoid performance impact of a single partition mode in Spark window functions -
有没有办法调用可以实现这一点的函数?问题是我必须对相当多的数据(和很多组)执行此操作,如果我尝试将它带到正常的数据框,它会杀死 R。