【发布时间】:2019-03-26 20:38:24
【问题描述】:
这里的目标是找到 df 中不存在的列并使用空值创建它们。
我有一个列名列表,如下所示:
column_list = ('column_1', 'column_2', 'column_3')
当我尝试检查该列是否存在时,它仅对存在的列给出 True,而对于缺失的列不给出 False。
for column in column_list:
print df.columns.isin(column_list).any()
在 PySpark 中,我可以使用以下方法实现此目的:
for column in column_list:
if not column in df.columns:
df = df.withColumn(column, lit(''))
如何使用 Pandas 实现相同的目标?
【问题讨论】:
-
你永远不会在你的 for 循环中使用你的
column变量。你重复做同样的操作..基本上检查df中是否有any列在column_list中