【问题标题】:How to enforce withColumn to work chronological row after row?如何强制 withColumn 按时间顺序逐行工作?
【发布时间】:2020-07-05 09:41:10
【问题描述】:

我的算法取决于到达数据的顺序,它反映在数据框行的顺序中。

第 0 行 - t_0 |第 1 行 - t_1 | .... |第 N 行 - t_N

我的代码:

df_res=df.withColumn('algo_res',temporalAlgo_UDF(F.col('value')))

如何强制执行程序逐行应用算法(没有并行性)?

谢谢,

马克

【问题讨论】:

    标签: python apache-spark pyspark spark-structured-streaming


    【解决方案1】:

    你可以试试df.coalesce(1).withColumn...

    来自documentation

    但是,如果您要进行剧烈的合并,例如到 numPartitions = 1,这可能会导致您的计算发生在更少的节点上 比你喜欢的
    (例如 在 numPartitions = 1 的情况下为一个节点)。

    【讨论】:

      猜你喜欢
      • 2017-09-06
      • 2020-04-25
      • 1970-01-01
      • 2017-07-30
      • 2021-03-27
      • 1970-01-01
      • 1970-01-01
      • 2019-09-03
      • 2010-12-23
      相关资源
      最近更新 更多