使用 Google AutoML 表进行概率（置信度）估计答案

【问题标题】：Probability (Confidence) Estimates Using Google AutoML Tables使用 Google AutoML 表进行概率（置信度）估计
【发布时间】：2021-02-14 11:42:54
【问题描述】：

Google AutoML Tables 在用于生成具有多个输出类的分类器时，会为每个看起来像概率的分类结果生成置信度度量。这可以被视为概率吗？如果是这样，产生这个概率的方法是什么？可以为这个概率计算 95% 的置信区间吗？

【问题讨论】：

【解决方案1】：

是的，这个置信度度量输出可以被视为一个概率 - 这要归功于网络的最后一个 softmax 层。

模型是否具有单类或多类输出 - 如您的问题所述 - 引擎盖下的机制依赖于映射实际值分数的函数（sigmoid/logistic 或 softmax），来自神经网络的最后一层，归一化概率分布，具有相应的统计属性，允许您将输出视为概率。

请参阅here Google 培训课程中对 softmax 层的简短说明。

回想一下，逻辑回归会产生 0 到 1.0 之间的小数。例如，电子邮件分类器的逻辑回归输出 0.8 表明电子邮件有 80% 的可能性是垃圾邮件，有 20% 的可能性不是垃圾邮件。显然，一封电子邮件是垃圾邮件或不是垃圾邮件的概率之和为 1.0。

Softmax 将这个想法扩展到了一个多类世界。也就是说，Softmax 为多类问题中的每个类分配十进制概率。这些小数概率加起来必须为 1.0。这种额外的约束有助于训练更快地收敛。

【讨论】：