【问题标题】:How many learning curves should I plot for a multi-class logistic regression classifier?我应该为多类逻辑回归分类器绘制多少条学习曲线?
【发布时间】:2015-10-09 00:43:23
【问题描述】:

如果我们有 K 个班级,我是否必须绘制 K 个学习曲线? 因为在我看来,一次计算所有 K theta 向量的训练/验证误差是不可能的。

为了澄清,学习曲线是训练和交叉验证/测试集错误/成本与训练集大小的关系图。该图应该允许您查看增加训练集大小是否会提高性能。更一般地说,学习曲线可让您确定您的算法是否存在偏差(欠拟合)或方差(过拟合)问题。

【问题讨论】:

    标签: machine-learning classification data-analysis logistic-regression


    【解决方案1】:

    这取决于。学习曲线不关心班级的数量。就像您说的那样,它是训练集和测试集误差的图,其中该误差是一个数值。这就是所有的学习曲线。

    该错误可以是任何您想要的:准确度、精确度、召回率、F1 分数等(甚至 MAE、MSE 和其他回归)。

    但是,您选择使用的错误是适用于或不适用于您的特定问题的错误,这反过来会间接影响您应该如何使用学习曲线。

    准确度对于任意数量的类都有很好的定义,所以如果你使用它,一个图就足够了。

    然而,精确度和召回率仅针对二元问题定义。您可以通过考虑每个类x 的类xnot x 的二元问题,在某种程度上概括它们(例如参见here)。在这种情况下,您可能希望为每个班级绘制学习曲线。这也将帮助您更好地识别与某些类相关的问题。

    如果您想了解更多关于性能指标的信息,我非常喜欢this paper

    【讨论】:

    • 嗯,我明白了,非常感谢您非常有帮助的回答!
    猜你喜欢
    • 2014-03-16
    • 2015-08-13
    • 2019-05-05
    • 2015-02-19
    • 1970-01-01
    • 2014-02-17
    • 1970-01-01
    • 2020-06-13
    • 2020-07-20
    相关资源
    最近更新 更多