【问题标题】:How many learning curves should I plot for a multi-class logistic regression classifier?我应该为多类逻辑回归分类器绘制多少条学习曲线?
【发布时间】:2015-10-09 00:43:23
【问题描述】:
如果我们有 K 个班级,我是否必须绘制 K 个学习曲线?
因为在我看来,一次计算所有 K theta 向量的训练/验证误差是不可能的。
为了澄清,学习曲线是训练和交叉验证/测试集错误/成本与训练集大小的关系图。该图应该允许您查看增加训练集大小是否会提高性能。更一般地说,学习曲线可让您确定您的算法是否存在偏差(欠拟合)或方差(过拟合)问题。
【问题讨论】:
标签:
machine-learning
classification
data-analysis
logistic-regression
【解决方案1】:
这取决于。学习曲线不关心班级的数量。就像您说的那样,它是训练集和测试集误差的图,其中该误差是一个数值。这就是所有的学习曲线。
该错误可以是任何您想要的:准确度、精确度、召回率、F1 分数等(甚至 MAE、MSE 和其他回归)。
但是,您选择使用的错误是适用于或不适用于您的特定问题的错误,这反过来会间接影响您应该如何使用学习曲线。
准确度对于任意数量的类都有很好的定义,所以如果你使用它,一个图就足够了。
然而,精确度和召回率仅针对二元问题定义。您可以通过考虑每个类x 的类x 和not x 的二元问题,在某种程度上概括它们(例如参见here)。在这种情况下,您可能希望为每个班级绘制学习曲线。这也将帮助您更好地识别与某些类相关的问题。
如果您想了解更多关于性能指标的信息,我非常喜欢this paper。