【发布时间】:2018-08-04 02:42:06
【问题描述】:
不平衡dataset 的最佳技术是什么?
我有一个 dataset 的 11967 个实例,其中正标签的数量是 139 ,负标签的数量是 11828 。
如何拆分dataset进行测试(在技术之前或之后)?
【问题讨论】:
-
这是什么数据?为什么只是测试? (你做什么训练?)
-
我不明白你所说的数据类型是什么意思。关于训练,我可以通过欠采样或过采样来处理训练数据,但测试数据也不平衡,所以恐怕也会影响模型的评估。
-
定义“最佳”。以什么衡量标准?
标签: validation machine-learning classification