【发布时间】:2018-09-08 21:11:03
【问题描述】:
我想将我的数据集分成两部分,75% 用于训练,25% 用于测试。有两个班。 而且我有另一个数据集,它只有一个类的一个实例,其余所有实例都属于第二类。 所以我不想随机分裂。我想确保,如果一个类只有一个实例,它应该在训练中。任何想法如何做到这一点。我知道我必须选择索引,但我不知道如何。 现在,我正在这样做,选择前 75% 作为训练,剩下的作为测试
train_data = df[:int((len(df)+1)*.75)]
test_data = df[int(len(df)*.75+1):]
【问题讨论】:
标签: python-3.x machine-learning scikit-learn cross-validation train-test-split