使用 PCA 和 K-MEANS 选择相关特征答案

【问题标题】：Select relevant features with PCA and K-MEANS使用 PCA 和 K-MEANS 选择相关特征
【发布时间】：2021-04-06 08:47:38
【问题描述】：

我正在尝试了解 PCA 和 K-Means 算法，以便从一组特征中提取一些相关特征。 p>

我不知道计算机科学的哪个分支研究这些主题，在互联网上似乎没有很好的资源，只是一些我不太了解的论文。论文示例http://www.ifp.illinois.edu/~qitian/e_paper/icip02/icip02.pdf

我有如下组成的 csv 文件：

TIME、X、Y、Z，这些值由加速度计记录

我做了什么

我在 Python 中将数据集转换为表格
我使用 Python 库 tsfresh 从每次行走中提取特征向量，这些特征很多，每次行走 2k+ 个特征。
我必须使用 PFA，主要特征分析，从集合中选择相关特征向量特征

为了做到最后一点，我必须使用 PCA 降低特征游走的维度（PCA 会使数据与原始数据不同因为它使用原始数据的协方差矩阵的特征向量和特征值来修改数据）。这里我有第一个问题：

PCA 的输入应该是什么样子？行是步行数，列是特征，反之亦然，所以行是特征数，列是人的步行数？

减少此数据后，我应该对减少的“特征”数据使用 K-Means 算法。输入在 K-Means 中的外观应该如何？使用这种算法的目的是什么？我所知道的这个算法是用来“聚类”一些数据的，所以在每个聚类中都有一些基于某些规则的“点”。我的做法和想法是：

如果我在 PCA 中使用如下所示的输入：行是步行数，列是特征数，那么对于 K-Means，我应该更改带有行的列，因为这样每个点都是特征（但这不是具有特征的原始数据，它只是减少的数据，所以我不知道）。因此，对于每个集群，我看到的欧几里得距离与质心的距离较小，并选择该特征。那么我应该声明多少个集群？如果我声明集群与特征数量相同，我将始终提取相同数量的特征。我怎么能说缩减数据中的一个点对应于原始特征集中的这个特征？

我知道我所说的可能不正确，但我正在努力理解它，你们中的一些人可以帮助我吗？如果我是在正确的方式？谢谢！

【问题讨论】：

标签： algorithm k-means pca

【解决方案1】：

对于PCA，请确保将算法使用的方法（特征向量等）与结果的理解分开。结果是线性映射，将原始空间A 映射到A'，其中维度（在您的情况下为特征数）可能小于原始空间A。

所以空间中的第一个特征/元素A'，是A的特征的线性组合。

行/列取决于实现，但如果您使用scikit PCA，列就是特征。

您可以将 PCA 输出（A' 空间）提供给 K-means，它会根据通常降维的空间对它们进行聚类。

每个点都将是一个集群的一部分，其想法是，如果您要计算 A 上的 K-Means，您最终可能会得到与 A' 相同/相似的集群。计算上A' 便宜很多。您现在在A' 和A 上有一个集群。我们同意A' 中的相似点在A 中也相似。

集群的数量很难回答，如果你什么都不知道，请搜索肘部方法。但是说你想感受一下你拥有的不同类型的things，我建议去3~8而不是太多，比较最接近的2-3分每个中心，你都有一些消耗品。特征的数量可以大于集群的数量。例如如果我们想知道某个区域（2D）中最密集的区域，您可以轻松拥有 50 个集群，以了解 50 个城市可能在哪里。这里我们有比空间维度更高的簇数，这是有道理的。

【讨论】：

感谢您的回答。我知道哪个功能比另一个更相关吗？我的意思是如果你修改原始数据，原始数据中第一个特征的索引与修改数据中的第一个索引特征相同吗？我的代码看起来像dpaste.com/5THH44R2N，在第 72 行中使用了数据的 PFA 方法。我是否应该也执行第 26 行？我的意思是，正如我告诉你的，行中的数据是步行，列中的数据是特征，所以通过这种方式，我用列改变行，所以一行（即一个点）是一个特征。
也是我的肘部方法，看起来像这样，看起来不是肘部lol imgur.com/a/d7o5XCY
假设我们在原始数据中有 5 个特征，a, b, c, d,e。比在PCA转换后的数据中，减少到3个特征x、y、z，特征x是线性组合，所以x = 2 * a + 4 * b - 0.5* d。
很难想出一种方法来分辨其中的特征相关性。当没有目标/目标时。 PCA 对缩放很敏感，所以要小心你得出的结论。
我有一个表示步行次数的 X 向量矩阵，每个向量都有 Y 特征，它们是向量的元素。所以减少不是要减少我的 X 行走次数，而是要减少其中的 Y 特征？因为如果我打印“变形”数据，我有相同数量的特征，但步行次数（所以每个向量）成为我选择的组件数