【发布时间】:2017-04-05 20:14:36
【问题描述】:
缺失值是数据分析中的常见问题。一种常见的策略似乎是将缺失值替换为从现有值的分布中随机抽样的值。
是否有 Python 库代码可以方便地对数据框执行此预处理步骤?据我所知,sklearn.preprocessing 模块不提供这种策略。
【问题讨论】:
-
你可以使用
sample来做到这一点 -
statsmodels 有 MICE(在 master 和 0.8rc 中),它实现预测均值匹配,它从邻居中选择估算的观察值,其中邻域由预测接近度定义。
标签: python pandas machine-learning scikit-learn data-science