【问题标题】:Weka not display Correctly classified instances as outputWeka 不显示正确分类的实例作为输出
【发布时间】:2018-05-21 06:36:26
【问题描述】:

我是 weka 的新手。我在 csv 中有一个包含 5000 个样本的数据集。这里有20个样本;当我将此数据集上传到 weka 时,它看起来不错,但是当我运行 knn 算法时,它会给出一个不应该给出的结果。这是样本数据。

a,b,c,d

74,85,123,1

73,84,122,1

72,83,121,1

70,81,119,1

70,81,119,1

69,80,118,1

70,81,119,1

70,81,119,1

76,87,125,1

76,87,125,1

82,92,146,2

74,86,140,​​2

68,80,134,2

64,76,130,2

64,75,132,2

83,96,152,2

72,85,141,2

71,83,141,2

69,81,139,2

65,79,137,2

结果如下:

=== 交叉验证 === ===总结===

相关系数 0.6148 平均绝对误差 0.2442 均方根误差 0.4004 相对绝对误差 50.2313 % 根相对平方误差 81.2078 % 实例总数 5000

它应该给出这样的结果: 正确分类的实例:69 92% 错误分类实例:6 8%

应该是什么问题?我错过了什么?我在所有其他算法中都这样做了,但它们都给出了相同的输出。我使用了示例 weka 数据集,它们都按预期工作。

【问题讨论】:

  • 您尝试使用的分类器的确切名称(和设置)是什么?如果您使用的是 Weka Explorer 界面,分类选项卡顶部的选择按钮旁边会显示什么?
  • @nekomatic 嗨,感谢您的评论。它说IKB。我正在尝试应用 knn 算法
  • 我假设您的意思是 IBk。好的,那么您是否从该选项卡上 开始 按钮上方的下拉列表中选择了哪个属性是类属性?
  • @nekomatic 最后一个,d.
  • 请阅读Under what circumstances may I add “urgent” or other similar phrases to my question, in order to obtain faster answers? - 总结是这不是解决志愿者的理想方式,并且可能会适得其反。请不要将此添加到您的问题中。

标签: weka


【解决方案1】:

IBk 算法可用于回归(预测每个实例的数值响应值)以及分类(预测每个实例属于哪个类)。

您的数据集中的所有类属性值(CSV 中的 d 列)看起来都是数字。因此,当您将此数据加载到 Weka 时,Weka 会猜测该属性应被视为数字属性,而不是名义属性。您可以看出这已经发生了,因为“预处理”选项卡中的直方图如下所示:

而不是像这样(按类别着色):

您在运行 IBk 时看到的结果是回归拟合的结果(预测每个实例的 d 列的数值)而不是分类(为每个实例选择最可能的 d 列名义值) .

要得到你想要的结果,你需要告诉 Weka 把这个属性当作名义属性。当您在 Preprocess 选项卡中加载 csv 文件时,请在文件对话框窗口中选中 Invoke options dialog。然后当你点击打开,你会得到这个窗口:

nominalAttributes 字段是您可以向 Weka 提供一个列表,其中列出了哪些属性是名义属性,即使它们看起来是数字的。在此处输入4 将指定输入中的第四个属性(列)是名义属性。现在 IBk 的行为应该如您所愿。

您也可以通过将 NumericToNominal 无监督属性过滤器应用于已加载的数据来执行此操作,再次指定属性 4,否则过滤器将应用于所有属性。

用于 Weka 示例数据集的 ARFF 格式包括对哪些属性属于哪种类型的规范。如上所述导入(或过滤)数据集后,您可以将其保存为 ARFF,然后您就可以重新加载它,而无需执行相同的过程。

【讨论】:

  • 你是我朋友的英雄。 :) 我无法管理过滤器和调用选项对话框的方式,但它背后的逻辑 %100 正确。我已将数据集的最后一个属性更改为是/否,然后它完美地工作。我真的很感谢你的时间、帮助和这个解释得很好的答案。我希望这对其他人有所帮助......非常感谢。
  • 很高兴知道它有帮助。如果您有时间,一个非常好的开始使用 Weka 和数据挖掘的方法是参加在线课程weka.waikato.ac.nz/explorer
  • 你拯救了我的一天!
猜你喜欢
  • 2015-07-02
  • 2012-08-28
  • 2019-12-08
  • 2017-04-18
  • 2011-09-07
  • 1970-01-01
  • 2018-06-10
  • 2017-12-28
  • 2012-06-30
相关资源
最近更新 更多