【发布时间】:2021-04-06 14:43:19
【问题描述】:
我有一个如下所示的 pyspark 数据框:
import pandas as pd
foo = pd.DataFrame({'group': ['a','a','a','b','b','c','c','c'], 'value': [1,2,3,4,5,2,4,5]})
我想创建一个新的二进制列is_consecutive,以指示value 列中的值是否与group 连续。
输出应如下所示:
foo = pd.DataFrame({'group': ['a','a','a','b','b','c','c','c'], 'value': [1,2,3,4,5,2,4,5],
'is_consecutive': [1,1,1,1,1,0,0,0]})
我如何在 pyspark 中做到这一点?
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql