任一特征集的分类都很好，但组合特征集的分类不好答案

【问题标题】：classification on either feature sets is good but on the combination feature set is bad任一特征集的分类都很好，但组合特征集的分类不好
【发布时间】：2014-07-18 01:34:44
【问题描述】：

我有两个功能集：f1 和 f2。数据量为 140 万。仅使用 f1，我训练了随机森林并在测试集上进行了测试。准确率为 79%。然后我只使用了 f2 并在同一个测试集上进行了测试。准确率为 79.5%。但是，当我将 f1 和 f2 合并为一个特征向量并运行相同的实验时。准确率为 80.4%。

然后我运行了这个测试。我首先只使用了 f1 并训练了随机森林并在测试集上进行了测试。我收集了我无法正确分类的数据，称为 S1。然后我只使用 f2 并将收集到的数据集 S1 拆分为训练和测试集。该测试集的准确率为 86%。

根据我的实验结果，谁能告诉我出了什么问题？为什么我合并特征集 f1 和 f2 时准确率低？

【问题讨论】：

准确率不低，比使用单个特征集高约 1%。此外，在 S1 上，您只能获得 86% 的准确率，仅比使用 f1 高 7%。那么，如果你取 79 和 86 的加权平均值，是否接近 80-81%？（假设 S1 的数据量较少）。

标签： matlab machine-learning feature-extraction

【解决方案1】：

您可能存在过度拟合（方差）。我建议您尝试在 F1unionF2 上运行特征选择算法，以从 F1 和 F2 获取特征子集。您可以在Stanford cs229 notes中阅读有关该主题的更多信息

第 4 课描述了偏差与方差，第 5 课描述了模型选择，包括特征选择。您还可以在 YouTube 和 coursera 中找到 cs229 的视频讲座。

【讨论】：