【问题标题】:classification on either feature sets is good but on the combination feature set is bad任一特征集的分类都很好,但组合特征集的分类不好
【发布时间】:2014-07-18 01:34:44
【问题描述】:

我有两个功能集:f1 和 f2。数据量为 140 万。仅使用 f1,我训练了随机森林并在测试集上进行了测试。准确率为 79%。然后我只使用了 f2 并在同一个测试集上进行了测试。准确率为 79.5%。但是,当我将 f1 和 f2 合并为一个特征向量并运行相同的实验时。准确率为 80.4%。

然后我运行了这个测试。我首先只使用了 f1 并训练了随机森林并在测试集上进行了测试。我收集了我无法正确分类的数据,称为 S1。然后我只使用 f2 并将收集到的数据集 S1 拆分为训练和测试集。该测试集的准确率为 86%。

根据我的实验结果,谁能告诉我出了什么问题?为什么我合并特征集 f1 和 f2 时准确率低?

【问题讨论】:

  • 准确率不低,比使用单个特征集高约 1%。此外,在 S1 上,您只能获得 86% 的准确率,仅比使用 f1 高 7%。那么,如果你取 79 和 86 的加权平均值,是否接近 80-81%? (假设 S1 的数据量较少)。

标签: matlab machine-learning feature-extraction


【解决方案1】:

您可能存在过度拟合(方差)。我建议您尝试在 F1unionF2 上运行特征选择算法,以从 F1 和 F2 获取特征子集。您可以在Stanford cs229 notes中阅读有关该主题的更多信息

第 4 课描述了偏差与方差,第 5 课描述了模型选择,包括特征选择。 您还可以在 YouTube 和 coursera 中找到 cs229 的视频讲座。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2015-09-18
    • 2017-05-16
    • 2011-04-07
    • 2012-07-12
    • 2021-06-19
    • 2019-07-31
    • 2021-10-23
    • 2017-08-01
    相关资源
    最近更新 更多