解释混淆矩阵答案

【问题标题】：interpreting the confusion matrix [closed]解释混淆矩阵
【发布时间】：2018-09-18 08:35:00
【问题描述】：

我需要创建一个分类模型来预测某个事件的类别 - 1、2 或 3。到目前为止，我尝试了两个模型：多类决策树和多类神经网络。以下是它们各自的准确度得分和混淆矩阵。

多类决策树：

整体准确度 0.634 平均准确度 0.756 微平均精度 0.634 宏观平均精度 0.585184 微平均召回率 0.634 宏观平均召回率 0.548334

混淆矩阵：

多类神经网络：整体精度 0.5865 平均精度 0.724333 微平均精度 0.5865 宏观平均精度 0.583795 微平均召回率 0.5865 宏观平均召回率 0.460215

混淆矩阵：

34.8% 63.5% 1.7%
2.9% 89.3% 7.7%
0.1% 85.9% 13.9%

我认为这意味着在 Class2 上，两个模型都做得很好，尤其是神经网络模型。在其他类上，决策树模型做得更好，但仍低于 50%。

我应该如何根据这些指标改进结果？谢谢。

【问题讨论】：

规范化后数据集中有多少行？
您是否也在使用id 进行培训？如果您正在使用它，请尝试删除它。更多详情请查看stats.stackexchange.com/questions/224565/…
40列是怎么变成70列的？您是否也在为 y 使用虚拟变量？
- 规范化后 20,000 行
- 当我将 csv 读入 python 时，index_col = 0 - 这是 id 列。此列不遵循任何顺序。

【解决方案1】：

删除 id 特征，同时检查并删除任何您认为对预测没有价值的特征（任何其他特征，如 id）或具有唯一值的特征。还要检查是否存在任何类不平衡（数据中每个类有多少样本，类之间是否有适当的平衡？）。然后尝试应用模型并调整参数以获得更好的结果。您可以使用交叉验证以获得更好的结果。

【讨论】：