【发布时间】:2014-10-22 06:38:49
【问题描述】:
我是 weka 的新手,我目前正在创建的数据集上运行一些分类算法。
数据集包含一个类 {player1,player2,player3},其样本按玩家的顺序排序。
例如:
2,748.564,384.103,1.389,0.395,2354.950,0,1858.400,0.353,5,Player_1 1,729.143,391.086,1.479,0.378,2677.350,0,1496.900,0.333,3,Player_1 2,719.765,391.824,1.295,0.469,2659.625,0,1889.429,0.250,2,Player_1 1,726.515,388.121,1.506,0.360,2236.200,0,1431.800,0.364,4,Player_2 2,733.667,387.000,1.241,0.405,2612.450,0,2322.400,0.444,5,Player_2 1,744.343,380.000,1.516,0.366,2461.500,0,1455.050,0.417,3,Player_2 2,729.500,387.167,1.336,0.422,2150.167,0,2092.000,0.429,1,Player_3 1,734.100,398.700,1.522,0.311,2403.500,0,1497.550,0.214,3,Player_3
我发现如果我随机更改这个顺序,
例如: 1,734.100,398.700,1.522,0.311,2403.500,0,1497.550,0.214,3,Player_3 2,748.564,384.103,1.389,0.395,2354.950,0,1858.400,0.353,5,Player_1 1,726.515,388.121,1.506,0.360,2236.200,0,1431.800,0.364,4,Player_2 2,733.667,387.000,1.241,0.405,2612.450,0,2322.400,0.444,5,Player_2 2,742.300,394.600,1.514,0.388,2530.833,0,1454.000,1.000,1,Player_3 .....
它通常会影响分类器的性能。有人能解释一下为什么会这样吗?我使用 NaiveBayes、RandomForest 和 LMT 作为分类器。
提前致谢, 拿破仑
【问题讨论】:
-
能否请您更详细地解释一下场景
-
当然可以。我从不同的玩家那里得到了一些数据,我想建立一个模型并对其进行测试(即预测类 Player)。最初,训练数据集包含按 Player 类排序的数据。然后,我使用分类器并运行 10 CV 以输出性能和预测。但是,如果我在训练数据集中混合上述数据(即制作一个未按类 Player 排序的数据集),则会影响分类器的性能。
-
按照 Player 类排序的数据意味着 Player_1 行将首先呈现,然后 Player_2 行紧随其后,最后 Player_3 行呈现。如果我混合如下行:一些 Player_1 行,一些 Player_3 行,一些 Player_1 等,它会影响预测的准确性。
标签: weka