【发布时间】:2020-08-09 04:51:06
【问题描述】:
在 pyspark 中假设我们有三列 Start_date、duration、End_date。
我如何查看第一行end_date 和第二行Start_date。如果第二行 start_date 大于第一行结束日期,则不执行任何操作,否则如果第一行 End_date 小于第二行 Start_date,则将第二行 start_date 替换为第一行 end_date 并添加第二行的持续时间到start_date 并用新值替换第二行第二行的end_date。完成一组ID。
【问题讨论】:
-
如果您可以为您的数据框和所需输出提供可重现的示例,这将有助于其他人回答您的问题。
-
@MohammadMurtazaHashmi - 是的,但由于我是 Stack 的新手,所以我现在不允许附加图像。我现在尝试附加图片,看看你是否可以在我的帖子中看到它。
标签: pyspark