【发布时间】:2020-04-27 05:26:35
【问题描述】:
我在某些 PySpark 数据帧中将空值替换为 0 时遇到问题。
让df1 和df2 两个数据帧。在col1 上执行join 过程后,我得到一个数据框df,其中包含从df1 和df2 继承的具有相同列名(可能具有不同值)的两列,比如说df1.dup_col 和@ 987654331@。我对它们每个都有空值,我想用0 中的df1.dup_col 替换它们。
所以,我首先删除 df2.dup_col 列,然后调用
df.fillna({"df1.dup_col":'0'})
但我仍然得到 null 值。所以我尝试了,
df.select("df1.dup_col").na.fill(0)
结果相同。所以我尝试了
df = df.withColumn("df1.dup_col", when(df["df1.dup_col"].isNull(), 0).otherwise(
df["df1.dup_col"]))
没有更好的结果。
我错过了什么吗?
【问题讨论】:
标签: python dataframe pyspark null