【发布时间】:2015-03-07 13:06:43
【问题描述】:
我有一个用于分类任务的 4000 万 x 22 numpy 整数数据数组。 大多数特征是分类数据,使用不同的整数值来表示不同的类别。例如,在“颜色”列中:0 表示蓝色,1 表示红色,依此类推。我已经使用 LabelEncoder 对数据进行了预处理。
- 将这些数据拟合到 SK-learn 中的任何分类模型中是否有意义?我试图将数据拟合到随机森林模型中,但准确性极差。我也尝试过 One Hot Encoding 将数据转换为虚拟变量,但是我的计算机在使用 One Hot Encoding 后只能处理稀疏矩阵,问题是随机森林只能取密集矩阵,这会超出我计算机的内存。
- 在 SK-learn 中处理分类数据的正确策略是什么?
【问题讨论】:
-
在尝试处理 4000 万行数据之前,我会减少您的训练数据大小并首先确定哪些特征最有用。 RandomForest 有一个属性
feature_importances_,它会告诉你它认为最有用的特性是什么:scikit-learn.org/stable/modules/… -
感谢您的帮助!我不知道 sklearn 有这个。
标签: python numpy machine-learning scikit-learn