【发布时间】:2020-04-09 17:56:18
【问题描述】:
我在 python 中,我有类似以下结构的数据,混合了分类和数字
subject_id hour_measure urinecolor blood pressure
3 1.00 red
1.15 high
4 2.00 yellow low
我想使用热卡插补进行插补,但我发现我应该将其编码为数字然后进行插补
from sklearn.preprocessing import OneHotEncoder
enc = OneHotEncoder(handle_unknown='ignore')
df= pd.read_csv('path')
enc.fit(df)
enc.transform(df)
当我尝试进行编码时,它要求我先填写缺失值,那么我在进行编码时如何处理缺失值?当我对分类数据进行编码时,插补将生成缺失值的值,我如何在插补后将其反转为原始数据? 有人请帮我解决这个问题吗?
【问题讨论】:
-
df是什么类型;是dict吗?如果我理解您的问题,OneHotEncoder类不需要数据源中的“缺失”元素,我认为这是空值。 -
df 是来自 csv 文件的数据框
-
更新它,好吧,正如你所说,我应该将 null 放到每个空单元格中?
标签: python pandas python-2.7 numpy scikit-learn