【发布时间】:2021-04-06 08:47:38
【问题描述】:
我正在尝试了解 PCA 和 K-Means 算法,以便从一组特征中提取一些相关特征。 p>
我不知道计算机科学的哪个分支研究这些主题,在互联网上似乎没有很好的资源,只是一些我不太了解的论文。论文示例http://www.ifp.illinois.edu/~qitian/e_paper/icip02/icip02.pdf
我有如下组成的 csv 文件:
- TIME、X、Y、Z,这些值由加速度计记录
我做了什么
- 我在 Python 中将数据集转换为表格
- 我使用 Python 库 tsfresh 从每次行走中提取特征向量,这些特征很多,每次行走 2k+ 个特征。
- 我必须使用 PFA,主要特征分析,从集合中选择 相关 特征 向量特征
为了做到最后一点,我必须使用 PCA 降低特征游走的维度(PCA 会使数据与原始数据不同因为它使用原始数据的协方差矩阵的特征向量和特征值来修改数据)。这里我有第一个问题:
- PCA 的输入应该是什么样子?行是步行数,列是特征,反之亦然,所以行是特征数,列是人的步行数?
减少此数据后,我应该对减少的“特征”数据使用 K-Means 算法。输入在 K-Means 中的外观应该如何?使用这种算法的目的是什么?我所知道的这个算法是用来“聚类”一些数据的,所以在每个聚类中都有一些基于某些规则的“点”。我的做法和想法是:
- 如果我在 PCA 中使用如下所示的输入:行是步行数,列是特征数,那么对于 K-Means,我应该更改带有行的列,因为这样每个点都是特征(但这不是具有特征的原始数据,它只是减少的数据,所以我不知道)。因此,对于每个集群,我看到的欧几里得距离与质心的距离较小,并选择该特征。那么我应该声明多少个集群?如果我声明集群与特征数量相同,我将始终提取相同数量的特征。我怎么能说缩减数据中的一个点对应于原始特征集中的这个特征?
我知道我所说的可能不正确,但我正在努力理解它,你们中的一些人可以帮助我吗?如果我是在正确的方式?谢谢!
【问题讨论】: