【问题标题】:Scikit-learn Imputer Reducing DimensionsScikit-learn Imputer 降维
【发布时间】:2016-12-18 09:58:01
【问题描述】:

我有一个包含 332 列的数据框。我想估算值以便能够使用 scikit-learn 的决策树分类器。我的问题是 imputer 函数结果数据的列只有 330。

from sklearn.preprocessing import Imputer
imp = Imputer(missing_values='NaN', strategy='mean', axis=0)
cols = data.columns
new = imp.fit_transform(data)

print(data.shape,new.shape)
(34132, 332) (34132, 330)

【问题讨论】:

  • 你有全 NaN 列吗?
  • 是的。这就是我的回答。谢谢。

标签: python scikit-learn


【解决方案1】:

根据documentation of sklearn.preprocessing.Imputer

当axis=0时,只包含适合缺失值的列在变换时被丢弃。

所以,这是删除所有缺失值的列。

【讨论】:

    猜你喜欢
    • 2020-07-01
    • 1970-01-01
    • 2018-05-03
    • 2019-12-02
    • 2018-11-21
    • 2018-05-26
    • 2021-07-14
    • 2021-05-18
    • 1970-01-01
    相关资源
    最近更新 更多