【发布时间】:2016-12-01 13:34:10
【问题描述】:
我有大约 3000 个对象,其中每个对象都有一个与之关联的计数。我想将这些对象在训练和测试数据中随机划分为 70% 训练和 30% 的测试分开。但是,我想根据与每个对象关联的计数来划分它们,而不是根据对象的数量。
举个例子,假设我的数据集包含 5 个对象。
Obj 1 => 200
Obj 2 => 30
Obj 3 => 40
Obj 4 => 20
Obj 5 => 110
如果我以接近 70%-30% 的比例拆分它们,我的训练集应该是
Obj 2 => 30
Obj 3 => 40
Obj 4 => 20
Obj 5 => 110
我的测试集是
Obj 1 => 200
如果我再次拆分它们,我应该得到一个接近 70-30 拆分比率的不同训练和测试集。我知道上面的分割并没有给我纯粹的 70-30 分割,但只要它接近它,它是可以接受的。
是否有任何预定义的方法/包可以在 Python 中执行此操作?
【问题讨论】:
-
只是为了记录,这可能是一个非常糟糕的主意。您通常希望保持您的训练集相同,这样您就不会针对您的测试数据进行训练。
标签: python python-2.7 machine-learning training-data