【发布时间】:2018-07-03 15:48:53
【问题描述】:
我有一个包含50 classes 和 9000 个训练示例的数据集(numpy 向量)。
x_train=(9000,2048)
y_train=(9000,) # Classes are strings
classes=list(set(y_train))
我想建立一个子数据集,这样每个类将有 5 个示例
这意味着我得到了5*50=250 训练示例。因此我的子数据集将采用这种形式:
sub_train_data=(250,2048)
sub_train_labels=(250,)
备注:我们从每个类中随机抽取 5 个样本(总类数 = 50)
谢谢
【问题讨论】:
-
听起来不错。是什么让你不这样做?
-
我想知道这样做是为了估计需要多少示例才能获得最高准确度。我想从每个类的 5 个示例开始,然后是 10、20、40、80、160,320 ... 并绘制精度。一旦准确率保持不变,就停止数据标注。
-
任何 ide @kazemakase ?
-
不,因为我不知道问题出在哪里。你有没有尝试过什么?你在哪里卡住了?真正的问题是什么?
-
@kazemakase,这是问题的答案
标签: python random scikit-learn resampling sklearn-pandas