【发布时间】:2018-09-18 08:35:00
【问题描述】:
我需要创建一个分类模型来预测某个事件的类别 - 1、2 或 3。到目前为止,我尝试了两个模型:多类决策树和多类神经网络。以下是它们各自的准确度得分和混淆矩阵。
多类决策树:
整体准确度 0.634 平均准确度 0.756 微平均精度 0.634 宏观平均精度 0.585184 微平均召回率 0.634 宏观平均召回率 0.548334
混淆矩阵:
- 40.3% 53.6% 6.1%
- 6.6% 76.6% 16.8%
- 0.6% 51.8% 47.6%
多类神经网络: 整体精度 0.5865 平均精度 0.724333 微平均精度 0.5865 宏观平均精度 0.583795 微平均召回率 0.5865 宏观平均召回率 0.460215
混淆矩阵:
-
34.8% 63.5% 1.7%
-
2.9% 89.3% 7.7%
-
0.1% 85.9% 13.9%
我认为这意味着在 Class2 上,两个模型都做得很好,尤其是神经网络模型。在其他类上,决策树模型做得更好,但仍低于 50%。
我应该如何根据这些指标改进结果?谢谢。
【问题讨论】:
-
规范化后数据集中有多少行?
-
您是否也在使用
id进行培训?如果您正在使用它,请尝试删除它。更多详情请查看stats.stackexchange.com/questions/224565/… -
40列是怎么变成70列的?您是否也在为 y 使用虚拟变量?
-
- 规范化后 20,000 行
-
- 当我将 csv 读入 python 时,index_col = 0 - 这是 id 列。此列不遵循任何顺序。
标签: python machine-learning scikit-learn classification confusion-matrix