【发布时间】:2019-08-03 02:42:28
【问题描述】:
所以,我有一个 DataFrame,其中包含分类和数值的混合值,当前是 12345 行乘 171 列。
我在分类变量和数值中都有缺失值,我想在其中估算这些值。对于数值列,我正在执行以下操作;
import pandas as pd
import numpy as np
data = pd.read_csv('filepath')
from sklearn.preprocessing import Imputer
imp = Imputer(missing_values=np.nan, strategy='mean', axis=0)
data = imp.fit_transform(data)
然后我得到以下错误
ValueError: could not convert string to float: 'USD'
我理解这是因为我正在使用 sci-kit learns imputer with strategy = mean 这与分类变量不兼容。我宁愿不必遍历每一列并手动提取数值,所以我正在寻找一种方法,我可以只在数值列上执行此插补。
【问题讨论】:
标签: python scikit-learn preprocessor