【发布时间】:2013-05-31 21:10:47
【问题描述】:
我正在尝试对具有 1700 个特征和 3300 个实例的数据集应用特征选择。特征选择的方法之一是逐步回归。这是一种贪心算法,每轮删除最差的特征。
我使用数据在 SVM 上的性能作为指标来找出最差的特征。第一次,我训练 SVM 1700 次,每次只保留一个特征。在此迭代结束时,我从集合中删除了该特征,该特征的删除导致了最高的 SVM 性能。所以我们现在剩下 1699 个特征。
第二次,我训练了 SVM 1699 次,每次都保留一个特征,以此类推。
如果我想将数据集减少到 100 个特征,那么这个程序将训练一个 SVM(1700!-100!)次。这是棘手的。有关如何避免此类问题的任何建议?
【问题讨论】:
-
您在寻找什么?这种方法是更智能的算法,还是完全不同的特征选择方法?
-
如果存在更智能的算法?
标签: algorithm machine-learning greedy feature-selection