除了混淆矩阵之外，还有哪些其他形式的评估？答案

【问题标题】：What are the other forms of evaluation besides a confusion matrix?除了混淆矩阵之外，还有哪些其他形式的评估？
【发布时间】：2012-10-14 20:06:08
【问题描述】：

家庭作业

除了混淆矩阵之外，我还需要其他形式的评估来可视化算法的性能。

【问题讨论】：

不，这只是一个无用的评论，说我以前从未听说过混淆矩阵。
这个问题应该标记matlab吗？还是 c？

标签： c algorithm matlab machine-learning confusion-matrix

【解决方案1】：

Precision vs. Recall curves 也不错（还有here）。

如果它类似于回归，许多统计人员建议将其绘制为数据顶部的拟合曲线，或者如果拟合曲线是高维的，则可能是拟合曲线的许多不同的二维投影。还建议对置信区间和事物进行加权，使它们比绘图的其他部分显示得更暗，根据事物的不可能程度在视觉上降低它们的权重。这是 Andrew Gelman 最近发表的一篇文章：(link)

如果您正在制作生成模型，例如计算贝叶斯后验分布，那么posterior predictive checking 是一个很好的模型。如果您要进行回归，请不要低估汇总系数和R^{2} 值的表格的值。

如果您的数据自然适合某个域的顶部，例如 x-y 平面的一部分，或者您有美国每个州的数据等，那么尝试将您的数据覆盖在该域之上总是好的。制作一个显示数据分布的图（例如直方图，但如果它是问题域的某些视觉上有意义的部分之上的密度，通常会更好），然后使用算法的输出复制相同的精确图。从视觉上看，您的数据分布与算法输出之间的严重差异会引起人们对算法无法正确推断的地方的注意。

这确实是关键。目标是有效推理，而不是达到相对较少的分类错误等。如果您得到不错的分类错误，但您的方法过度拟合，它可能会出现在其中一些类型的图中。

【讨论】：

【解决方案2】：

如果它是一个二元分类问题并且您有一个分类器参数可以改变以获得不同的结果，则一种常见的方法是使用 ROC 曲线 (http://en.wikipedia.org/wiki/Receiver_operating_characteristic)。如果不是二分类问题，您仍然可以为每个标签（类）计算 ROC 曲线

【讨论】：