【发布时间】:2017-06-27 19:07:09
【问题描述】:
假设您有一个包含一些空值的 Spark 数据框,并且您希望将一列的值替换为另一列的值(如果存在)。在 Python/Pandas 中,您可以使用 fillna() 函数很好地做到这一点:
df = spark.createDataFrame([('a', 'b', 'c'),(None,'e', 'f'),(None,None,'i')], ['c1','c2','c3'])
DF = df.toPandas()
DF['c1'].fillna(DF['c2']).fillna(DF['c3'])
如何使用 Pyspark 做到这一点?
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql