【发布时间】:2018-11-01 18:49:39
【问题描述】:
我有一个包含许多数据框的列表,每个数据框都有一个主架构的子架构。为了合并这些数据框,我需要在所有数据框之间构建一个通用模式。我的想法是我需要为每个数据框的所有缺失列创建空列。我平均有大约 80 个缺失的特征和 100 个数据框。
这有点重复或受到Concatenate two PySpark dataframes的启发
我目前正在以这种方式实现:
from pyspark.sql.functions import lit
for df in dfs: # list of dataframes
for feature in missing_features: # list of strings
df = df.withColumn(feature, lit(None).cast("string"))
这似乎需要花费大量时间。有没有更快的方法将这些数据帧与 null 来代替缺失的特征?
【问题讨论】: