使用 AutoML (ml.net) 识别准确性和丢弃的特征答案

【问题标题】：Identifying accuracy and dropped features with AutoML (ml.net)使用 AutoML (ml.net) 识别准确性和丢弃的特征
【发布时间】：2019-07-08 14:26:39
【问题描述】：

我一直在玩 ML.Net AutoML，并且玩得很开心。我还有一些问题，希望有人可以帮助或指导我解决我的一些问题。

问题 1： 我有一个来自 AutoML 的训练有素的二元分类模型。这导致了基于最高准确度的前 5 名算法列表，我最终得到了一个准确率为 89% 的 SdcaLogisticRegressionBinary 二进制分类模型。

现在，当我进行评估时，准确率降至 84%。这是否意味着原始训练模型被过度拟合了 5%？根据评估，我的模型的准确率不是 89%，而是 84%，这样说公平吗？

问题 2： AutoML 还会在训练期间根据需要删除功能。有没有办法检索包含在最终模型中的实际特征列表，例如确定哪些特征被丢弃并且没有提高模型的准确性？

当我检查最终模型时，OutputSchema 往往会始终包含基于初始训练数据的所有特征。

【问题讨论】：

【解决方案1】：

这是否意味着原始训练模型过度拟合了 5%？

这个术语什么也没说，也从未使用过。可悲的是，“过度拟合”现在是一个被滥用的术语，过去几乎意味着与次优性能相关的所有内容。然而，实际上，过度拟合意味着非常特定的东西：它的明显特征是当你的验证损失开始增加，而你的训练损失继续减少时，即：

您的训练和验证准确率之间的 5%“余量”完全是另一回事（称为generalization gap），并且不表示过度拟合。

根据评估，我的模型的准确率不是 89%，而是实际上是 84%，这样公平吗？

您可能已经猜到了，“准确性”本身就是一个模棱两可的术语。事实是，在实践中，当没有任何其他能指使用时，它通常表示验证准确度（实际上没有人关心训练准确度的确切值）。无论如何，正确的结果报告应该是 - 训练准确度 89%，验证准确度 85%。

【讨论】：