聚类概念:
聚类属于无监督问题:手里没有标签
聚类实质是将相似的东西分到一组(簇)
难点在于参数的选择和评估 因为没有真值
K-Means 基本概念
K值是需要人为设定,即为簇的个数
质心:均值即为同一簇下所有点的均值
目标函数:用距离来度量 常用到欧式距离和余弦相似度(需要对数据先标准化)

Ci 为簇的质心 K为簇族数
实际工作流程:
参照下图1
主要步骤顺序为
1.首先人为先确定K值 该参数比较难确定
2.随机初始化K个簇的质心
3.根据距离划分簇的样本 如d1<d2 样本即属于红色的簇
4.划分完之后再根据样本数据重新确定质心
5.多次迭代直到簇的样本不在改变为止 即为完成

K-Means的优缺点:
优势:
简单,快速,适合常规数据集
K值难确定
劣势:
复杂度与样本呈线性关系
很难发现任意形状的簇

相关文章:
-
2021-10-10
-
2022-12-23
-
2022-12-23
-
2021-12-19
-
2021-11-08
-
2021-11-03
-
2022-12-23
-
2022-01-21
猜你喜欢
-
2021-10-14
-
2021-05-26
-
2021-04-23
-
2021-06-15
-
2021-05-04
-
2021-10-07
相关资源
-
下载
2022-12-20
-
下载
2021-06-06
-
下载
2021-06-05