【发布时间】:2018-02-14 04:54:31
【问题描述】:
我知道特征选择可以帮助我删除可能贡献较低的特征。我知道 PCA 有助于将可能相关的特征减少为一个,从而减少维度。我知道归一化会将特征转换为相同的比例。
但是有推荐的顺序来执行这三个步骤吗?从逻辑上讲,我认为我应该先通过特征选择来剔除不好的特征,然后对它们进行归一化,最后使用 PCA 降维并使特征尽可能相互独立。
这个逻辑正确吗?
额外问题 - 还有其他事情要做吗(预处理或转换) 在将特征输入估计器之前对其进行处理?
【问题讨论】:
-
这个问题与scikit-learn没有直接关系,而是与机器学习理论有关,因此属于Cross Validated。无论如何,正确的答案应该是:视情况而定。通常,特征选择步骤出现在 PCA 之后(带有描述特征数量的优化参数,而 Scaling 出现在 PCA 之前。但是,根据我改变的问题。您可能只想将 PCA 应用于特征的子集。一些算法不需要对数据进行规范化等。
标签: machine-learning scikit-learn