【发布时间】:2021-02-14 11:42:54
【问题描述】:
Google AutoML Tables 在用于生成具有多个输出类的分类器时,会为每个看起来像概率的分类结果生成置信度度量。这可以被视为概率吗?如果是这样,产生这个概率的方法是什么?可以为这个概率计算 95% 的置信区间吗?
【问题讨论】:
标签: probability confidence-interval multiclass-classification google-cloud-automl
Google AutoML Tables 在用于生成具有多个输出类的分类器时,会为每个看起来像概率的分类结果生成置信度度量。这可以被视为概率吗?如果是这样,产生这个概率的方法是什么?可以为这个概率计算 95% 的置信区间吗?
【问题讨论】:
标签: probability confidence-interval multiclass-classification google-cloud-automl
是的,这个置信度度量输出可以被视为一个概率 - 这要归功于网络的最后一个 softmax 层。
模型是否具有单类或多类输出 - 如您的问题所述 - 引擎盖下的机制依赖于映射实际值分数的函数(sigmoid/logistic 或 softmax),来自神经网络的最后一层,归一化概率分布,具有相应的统计属性,允许您将输出视为概率。
请参阅here Google 培训课程中对 softmax 层的简短说明。
回想一下,逻辑回归会产生 0 到 1.0 之间的小数。例如,电子邮件分类器的逻辑回归输出 0.8 表明电子邮件有 80% 的可能性是垃圾邮件,有 20% 的可能性不是垃圾邮件。显然,一封电子邮件是垃圾邮件或不是垃圾邮件的概率之和为 1.0。
Softmax 将这个想法扩展到了一个多类世界。也就是说,Softmax 为多类问题中的每个类分配十进制概率。这些小数概率加起来必须为 1.0。这种额外的约束有助于训练更快地收敛。
【讨论】: