【问题标题】:interpreting the confusion matrix [closed]解释混淆矩阵
【发布时间】:2018-09-18 08:35:00
【问题描述】:

我需要创建一个分类模型来预测某个事件的类别 - 1、2 或 3。到目前为止,我尝试了两个模型:多类决策树和多类神经网络。以下是它们各自的准确度得分和混淆矩阵。

多类决策树:

整体准确度 0.634 平均准确度 0.756 微平均精度 0.634 宏观平均精度 0.585184 微平均召回率 0.634 宏观平均召回率 0.548334

混淆矩阵:

  1. 40.3% 53.6% 6.1%
  2. 6.6% 76.6% 16.8%
  3. 0.6% 51.8% 47.6%

多类神经网络: 整体精度 0.5865 平均精度 0.724333 微平均精度 0.5865 宏观平均精度 0.583795 微平均召回率 0.5865 宏观平均召回率 0.460215

混淆矩阵:

  1. 34.8% 63.5% 1.7%

  2. 2.9% 89.3% 7.7%

  3. 0.1% 85.9% 13.9%

    我认为这意味着在 Class2 上,两个模型都做得很好,尤其是神经网络模型。在其他类上,决策树模型做得更好,但仍低于 50%。

我应该如何根据这些指标改进结果?谢谢。

【问题讨论】:

  • 规范化后数据集中有多少行?
  • 您是否也在使用id 进行培训?如果您正在使用它,请尝试删除它。更多详情请查看stats.stackexchange.com/questions/224565/…
  • 40列是怎么变成70列的?您是否也在为 y 使用虚拟变量?
  • - 规范化后 20,000 行
  • - 当我将 csv 读入 python 时,index_col = 0 - 这是 id 列。此列不遵循任何顺序。

标签: python machine-learning scikit-learn classification confusion-matrix


【解决方案1】:

删除 id 特征,同时检查并删除任何您认为对预测没有价值的特征(任何其他特征,如 id)或具有唯一值的特征。还要检查是否存在任何类不平衡(数据中每个类有多少样本,类之间是否有适当的平衡?)。然后尝试应用模型并调整参数以获得更好的结果。您可以使用交叉验证以获得更好的结果。

【讨论】:

    猜你喜欢
    • 2017-11-03
    • 2014-06-11
    • 2020-07-06
    • 2023-01-12
    • 2019-08-05
    • 2020-08-06
    • 2015-12-17
    • 2020-10-01
    • 2012-01-20
    相关资源
    最近更新 更多