【发布时间】:2020-03-18 08:38:31
【问题描述】:
我遇到了一个问题,将我的数据分成训练和测试数据后,我的测试集中完全缺少一个类。
Example on 60/40 split: <br/>
Training: 'Orange', 0,0,0, 'Orange' <br/>
Testdata: 0,0,0,0,0
显然“橙色”这个词不包含在测试集中。如何确保拆分考虑到至少一些目标样本包含在测试集和训练集中?我以为 stratify 参数可以做到这一点,但不幸的是没有。
【问题讨论】:
-
train_test_split和stratify输入参数是要走的路。请参阅我的答案以获取示例
标签: python scikit-learn classification