【问题标题】:Identifying accuracy and dropped features with AutoML (ml.net)使用 AutoML (ml.net) 识别准确性和丢弃的特征
【发布时间】:2019-07-08 14:26:39
【问题描述】:

我一直在玩 ML.Net AutoML,并且玩得很开心。我还有一些问题,希望有人可以帮助或指导我解决我的一些问题。

问题 1: 我有一个来自 AutoML 的训练有素的二元分类模型。这导致了基于最高准确度的前 5 名算法列表,我最终得到了一个准确率为 89% 的 SdcaLogisticRegressionBinary 二进制分类模型。

现在,当我进行评估时,准确率降至 84%。这是否意味着原始训练模型被过度拟合了 5%?根据评估,我的模型的准确率不是 89%,而是 84%,这样说公平吗?

问题 2: AutoML 还会在训练期间根据需要删除功能。有没有办法检索包含在最终模型中的实际特征列表,例如确定哪些特征被丢弃并且没有提高模型的准确性?

当我检查最终模型时,OutputSchema 往往会始终包含基于初始训练数据的所有特征。

【问题讨论】:

    标签: machine-learning ml.net automl


    【解决方案1】:

    这是否意味着原始训练模型过度拟合了 5%?

    这个术语什么也没说,也从未使用过。可悲的是,“过度拟合”现在是一个被滥用的术语,过去几乎意味着与次优性能相关的所有内容。然而,实际上,过度拟合意味着非常特定的东西:它的明显特征是当你的验证损失开始增加,而你的训练损失继续减少时,即:

    您的训练和验证准确率之间的 5%“余量”完全是另一回事(称为generalization gap),并且表示过度拟合。

    根据评估,我的模型的准确率不是 89%,而是实际上是 84%,这样公平吗?

    您可能已经猜到了,“准确性”本身就是一个模棱两可的术语。事实是,在实践中,当没有任何其他能指使用时,它通常表示验证准确度(实际上没有人关心训练准确度的确切值)。无论如何,正确的结果报告应该是 - 训练准确度 89%,验证准确度 85%。

    【讨论】:

    • 水晶般清澈。所以在我的例子中,89% 只是基于训练数据集的模型的准确度。 84% 基于测试数据集,例如以前没见过的例子。
    • @MichaSchopman 既然很清楚,您介意接受答案吗?谢谢
    猜你喜欢
    • 2022-10-19
    • 2020-09-27
    • 2019-08-08
    • 2015-09-08
    • 1970-01-01
    • 2011-09-07
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多