【发布时间】:2019-03-13 09:36:47
【问题描述】:
我在这里拉头发。我需要替换熊猫数据框列中的 null 值。这些是空值而不是 NaN 值。
我试过了:
trainData['Embarked'].replace(trainData['Embarked'].isnull, embarkedMost, regex=True)
trainData['Embarked'].replace('', embarkedMost, regex=True)
trainData['Embarked'].replace('', embarkedMost, regex=True, inplace=True)
trainData['Embarked'].str.replace('', embarkedMost, regex=True)
trainData['Embarked'].isnull().replace(np.nan, embarkedMost, regex=True)
trainData['Embarked'].fillna(embarkedMost)
trainData['Embarked'].str.replace(np.Nan, embarkedMost, regex=True)
trainData['Embarked'].str.replace(pd.isnull, embarkedMost, regex=True)
trainData['Embarked'].replace(r'^\s+$', embarkedMost, regex=True, inplace=True)
然后:
trainData.to_csv(os.path.join(os.path.dirname(__file__), 'full.csv'), sep=',')
之后我将数据集加载到 excel 中进行检查,但这些都没有改变数据集。
这为我提供了正确的空值索引:
print(np.where(pd.isnull(trainData['Embarked'])))
我想将 apply 与 lambda 一起使用,但读到它效率极低。
【问题讨论】:
标签: python pandas dataframe missing-data