【发布时间】:2025-12-18 04:05:01
【问题描述】:
我正在尝试对我的数据框 (df_data) 中的列子集进行以下插补,但在此过程中,我生成的数据框 (imputeDF) 只有插补列。我希望保留所有原始列并添加回推算列(并删除原始非推算列)。估算的数据框没有 id 可以加入到 df_data 上,我研究了 withColumn 函数,但无法让它为我工作。任何帮助,将不胜感激。谢谢
removeAllDF = df_data.na.drop()
imputeDF=df_data['exact_age','lnght_of_resd','acct_tenure_mnth_nbr','acct_ttce_mnth_nbr','tot_promo_amt', 'tot_rev_amt','int_base_pkg_speed','int_mx_elgbl_speed']
for x in imputeDF.columns:
meanValue = removeAllDF.agg(avg(x)).first()[0]
print(x, meanValue)
imputeDF = imputeDF.na.fill(meanValue, (x))
return imputeDF
【问题讨论】:
标签: python apache-spark pyspark apache-spark-sql data-wrangling