【问题标题】:weka gives 100% correctly classified instances for every datasetweka 为每个数据集提供 100% 正确分类的实例
【发布时间】:2017-04-18 15:33:29
【问题描述】:

我无法获得准确度,因为我提供的每个数据集都为我应用的每个分类器算法提供了 100% 的准确度。我的数据集是 10 人。 它对朴素贝叶斯、J48、JRip 分类器算法给出了相同的精度。

+----+-------+----+----+----+----+----+-----+----+------+-------+-------+-------+
| id | name  | q1 | q2 | q3 | m1 | m2 | tut | fl | proj | fexam | total | grade |
+----+-------+----+----+----+----+----+-----+----+------+-------+-------+-------+
|  1 | abv   |  5 |  5 |  5 | 13 | 13 |   4 |  8 |    7 |    40 |   100 | p     |
|  2 | ca    |  1 |  1 |  1 |  1 |  1 |   1 |  1 |    1 |    40 |    48 | f     |
|  3 | ga    |  4 |  2 |  3 |  5 | 10 |   4 |  5 |    6 |    20 |    59 | f     |
|  4 | ui    |  5 |  4 |  4 | 12 | 13 |   3 |  7 |    7 |    39 |    94 | p     |
|  5 | pa    |  4 |  1 |  1 |  4 |  3 |   2 |  4 |    5 |    22 |    46 | f     |
|  6 | la    |  2 |  3 |  1 |  1 |  2 |   0 |  4 |    2 |    11 |    26 | f     |
|  7 | ka    |  5 |  4 |  1 |  3 |  3 |   1 |  6 |    4 |    24 |    51 | f     |
|  8 | ma    |  5 |  3 |  3 |  9 |  8 |   4 |  8 |    0 |    20 |    60 | p     |
|  9 | ash   |  2 |  5 |  5 | 11 | 12 |   3 |  7 |    6 |    30 |    81 | p     |
| 10 | opo   |  4 |  2 |  1 | 13 |  1 |   3 |  7 |    3 |    35 |    69 | p     |
+----+-------+----+----+----+----+----+-----+----+------+-------+-------+-------+

【问题讨论】:

    标签: machine-learning classification weka


    【解决方案1】:

    确保不包含任何唯一标识符列

    另外不要包含total

    最有可能的是,分类器了解到“名称”是一个很好的预测器和/或您需要总计 total > 59 点才能通过。 因此,我建议您甚至保留至少一个练习 - 一些分类器仍然会知道各个点的总和是通过的必要条件。

    我假设您想了解是否有一个部分最能表明通过,即“如果您在第 3 部分中表现出色,您很可能会通过”。但是要回答这个问题,您需要考虑例如每个问题的分数不同等 - 否则,您的预测器只会确定哪个问题的分数最高......

    另外,10 的样本量太小了!

    【讨论】:

      【解决方案2】:

      从显示的输出中可以看出,J48 生成的树只使用了变量 fl,所以我认为您没有 @Anony-Mousse 提到的问题。

      我注意到您正在对训练集进行测试(请参阅 GUI 左上方的“测试选项”单选按钮)。这几乎总是高估了准确性。你看到的是过度拟合。相反,使用交叉验证来更好地估计您对新数据的预期准确性。只有 10 个数据点,您应该使用 10 折或 5 折。

      【讨论】:

        【解决方案3】:

        尝试在“k 拆分”或百分比拆分的交叉验证上测试您的模型。

        一般按百分比拆分:训练集占数据集的 2/3,测试集占 1/3。

        另外,我觉得你的数据集非常小......在这种情况下有很高的准确性。

        【讨论】:

          猜你喜欢
          • 2012-08-28
          • 2015-07-02
          • 2019-12-08
          • 2018-05-21
          • 2017-12-28
          • 2011-09-07
          • 2012-06-30
          • 2018-12-16
          • 2012-03-25
          相关资源
          最近更新 更多