Feature Selection详解（附带Relief、Relief-F、LVM详解）（二）

Feature Selection详解

第二十六次写博客，本人数学基础不是太好，如果有幸能得到读者指正，感激不尽，希望能借此机会向大家学习。这一篇承接上一篇《Feature Selection详解（附带Relief、Relief-F、LVM详解）（一）》的内容，仍然是针对特征选择问题的其他几种常见方法进行阐述，并介绍其中一种比较经典的特征选择算法（LVM）。

“包裹式”特征选择

与过滤式方法在选择特征时不考虑学习器不同，“包裹式”特征选择方法将学习器的性能作为特征子集的度量方法考虑进来，因此，包裹式选择方法可以被认为是为指定学习器选择最适合的特征子集。实验证明，虽然使用该方法的最终学习器的性能要高于过滤式，但是由于特征选择过程中需要对学习器进行多次训练，因此大大增加了计算开销。
LVW（Las Vegas Wrapper）是一个典型的包裹式特征选择方法，于1996年由Liu和Setiono提出，他是“拉斯维加斯算法”（Las Vegas Algorithm）的一种改进版本，拉斯维加斯算法是一种随机搜索策略，在给定运行时间限制的情况下，该算法可能得不到最优的结果，在搜索空间很大（特征很多）而又不设置时间限制时，可能会得不到最终结果。LVW在随机搜索的过程中，加入训练学习器并评估学习器性能的步骤，算法伪代码如下图所示。

Feature Selection详解（附带Relief、Relief-F、LVM详解）（二）

图2 LVM算法

算法第1-4行：初始化最小分类错误率 $E$ 、当前最优特征子集大小 $d$ 、当前最优特征子集 $A^*$ 以及当前运行次数 $t$ ，将原始数据集划分为训练集和验证集；
算法第5行：为该算法添加明确的时间界；
算法第6-7行：在原始特征集合 $A$ 中随机选择特征子集 $A'$ ，设置该轮循环的特征子集大小 $d'$ ；
算法第8行：在当前样本空间（只保留 $A'$ 中的值）中，通过训练集训练指定的学习器，并通过验证集测试该学习器的分类错误率 $E'$ ；
算法第9-14行：如果该轮循环得到的学习器分类错误率 $E'$ 低于 $E$ ，或者 $E'$ 等于 $E$ 且该轮循环的特征子集大小 $d'$ 小于 $d$ ，就将当前运行次数 $t$ 清零，将 $E$ 设置为 $E'$ ， $d$ 设置为 $d'$ ， $A^*$ 设置为 $A'$ ，否则，运行次数增一。

“嵌入式”特征选择

在过滤式和包裹式特征选择中，特征选择过程与学习器训练过程由明显的分别，与此不同，“嵌入式”特征选择是将特征选择过程与学习器训练过程结合在一起，两者在同一个优化过程中完成，即在学习器训练过程中自动完成特征选择。
在线性回归问题中，优化目标可以表示为

为了防止过拟合，在上述优化目标中加入 $L_2$ 正则项，得到下式

其中， $\lambda$ 是正则化系数，上式被称为“岭回归”（Ridge Regression）。现在将 $L_2$ 正则项替换为 $L_1$ 正则项，那么可以得到

上式被称为LASSO（Least Absolute Shrinkage and Selection Operator），通过加入 $L_1$ 正则项得到的解更加稀疏，因此可以作为一种有效的嵌入式特征选择方法，这种问题的最终解可以通过“近端梯度下降”（Proximal Gradient Descent，简称PGD）得到，假设优化目标可以表示为

这里 $\mathbf{x}$ 是优化变量，令 $\triangledown$ 表示微分算子。如果 $f\left(\mathbf{x}\right)$ 可导，且满足L-Lipschitz条件，即存在常数 $L>0$ 使得下式成立

则在 $\mathbf{x}_k$ 附近可以将 $f\left(\mathbf{x}_k\right)$ 通过二阶泰勒展开式近似为

其中， $\text{const}$ 是与 $\mathbf{x}$ 无关的常数， $\langle\centerdot,\centerdot\rangle$ 是内积，上式的最小值在如下 $\mathbf{x}_{k+1}$ 获得，

如果通过梯度下降法对 $f\left(\mathbf{x}\right)$ 进行最小化，那么每一步梯度下降迭代实际上等价于最小化二次函数 $\hat{f}\left(\mathbf{x}\right)$ ，将这种思想推广到带有 $L_1$ 正则项的优化目标，可以类似的得到其每一步迭代为

即在每一步进行梯度下降的同时考虑 $L_1$ 范数最小化，对于上式，可以先计算

然后求解

由于优化参数的各个分量之间不相关，因此上式由如下闭式解

其中 $x^i_{k+1}$ 和 $z^i$ 分别是向量 $\mathbf{x}_{k+1}$ 和 $\mathbf{z}$ 的第 $i$ 个分量。

参考资料

【1】《机器学习》周志华
【2】《The Feature Selection Problem :Traditional Methods and a New Algorithm》Kenji Kira,Larry A. Rendell
【3】《Estimating Attributes: Analysys and Extensions of RELIEF》 Igor Kononenko
【4】《Feature Selection And Classification - A Probabilistic Wrapper Approach》 Huan Liu,Rudy Setiono