【发布时间】:2020-09-04 04:57:16
【问题描述】:
我已经通过replace missing values in categorical data 处理分类数据中的缺失值。
数据集大约有6 categorical columns 和missing values。这将是一个二元分类问题
我看到了不同的方法,其中一种是 just leave the missing values in category column as such,另一种是使用 from sklearn.preprocessing import Imputer 进行估算,但不确定哪种方法更好。
如果imputing 是更好的选择,我可以在应用LR,Decision Tree, RandomForest 之类的模型之前使用哪些库。
谢谢!
【问题讨论】:
-
没有通用答案,取决于模型+数据集(例如:xgboost 处理开箱即用的缺失值..)
标签: python machine-learning classification missing-data imputation