如何强制 withColumn 按时间顺序逐行工作？

【问题标题】：How to enforce withColumn to work chronological row after row?如何强制 withColumn 按时间顺序逐行工作？
【发布时间】：2020-07-05 09:41:10
【问题描述】：

我的算法取决于到达数据的顺序，它反映在数据框行的顺序中。

第 0 行 - t_0 |第 1 行 - t_1 | .... |第 N 行 - t_N

我的代码：

df_res=df.withColumn('algo_res',temporalAlgo_UDF(F.col('value')))

如何强制执行程序逐行应用算法（没有并行性）？

谢谢，

马克

【问题讨论】：

【解决方案1】：

你可以试试df.coalesce(1).withColumn...

但是，如果您要进行剧烈的合并，例如到 numPartitions = 1，这可能会导致您的计算发生在更少的节点上比你喜欢的
（例如 在 numPartitions = 1 的情况下为一个节点）。

【讨论】：