【发布时间】:2017-01-23 12:58:42
【问题描述】:
我必须处理Class Imbalance Problem 并对输入测试数据集执行binary-classification,其中大部分类标签在训练数据集中为 1(另一个类标签为 0)。
例如,以下是部分训练数据:
93.65034,94.50283,94.6677,94.20174,94.93986,95.21071,1
94.13783,94.61797,94.50526,95.66091,95.99478,95.12608,1
94.0238,93.95445,94.77115,94.65469,95.08566,94.97906,1
94.36343,94.32839,95.33167,95.24738,94.57213,95.05634,1
94.5774,93.92291,94.96261,95.40926,95.97659,95.17691,0
93.76617,94.27253,94.38002,94.28448,94.19957,94.98924,0
最后一列是class-label - 0 或1。实际数据集与 10:1 的类比率非常偏斜,即大约 700 个样本的 class label 为 0,而其余 6800 个样本的 class label 为 1。
上述只是给定数据集中所有样本中的一小部分,但实际数据集中包含90% 的样本,class-label 为1,其余为@987654334 @ 成为0,尽管所有样本或多或少都非常相似。
哪个分类器最适合处理这种数据集?
我已经尝试过logistic-regression 和svm,将class-weight 参数设置为"balanced",但准确率没有明显提高。
【问题讨论】:
-
由于这不是一个编程问题,您将在Cross Validated得到更好的答复
标签: machine-learning classification random-forest decision-tree ensemble-learning