【发布时间】:2016-05-30 02:27:19
【问题描述】:
我正在使用 sklearn 进行多分类任务。我需要将所有数据拆分为 train_set 和 test_set。我想从每个班级随机抽取相同的样本数。 其实我是在逗这个功能
X_train, X_test, y_train, y_test = cross_validation.train_test_split(Data, Target, test_size=0.3, random_state=0)
但它给出了不平衡的数据集!任何建议。
【问题讨论】:
-
如果你仍然想使用
cross_validation.train_test_split并且你在sklearn0.17你可以平衡训练和测试,看看我的回答 -
附带说明,例如,对于具有sklearn.ensemble.RandomForestClassifier 的不平衡训练集,可以使用
class_weight="balanced"。 -
@Shadi:请不要说平衡你的火车组是不同的;
class_weight将对您的成本最小化产生影响。
标签: machine-learning scikit-learn svm cross-validation