聚类概念:

聚类属于无监督问题:手里没有标签

聚类实质是将相似的东西分到一组(簇)

难点在于参数的选择和评估 因为没有真值

K-Means 基本概念

K值是需要人为设定,即为簇的个数

质心:均值即为同一簇下所有点的均值

目标函数:用距离来度量 常用到欧式距离和余弦相似度(需要对数据先标准化)

机器学习-聚类之K-Means原理

Ci 为簇的质心 K为簇族数

实际工作流程:

参照下图1

主要步骤顺序为

1.首先人为先确定K值 该参数比较难确定

2.随机初始化K个簇的质心

3.根据距离划分簇的样本  如d1<d2 样本即属于红色的簇

4.划分完之后再根据样本数据重新确定质心

5.多次迭代直到簇的样本不在改变为止 即为完成

机器学习-聚类之K-Means原理

K-Means的优缺点:

优势:
简单,快速,适合常规数据集
K值难确定


劣势:
复杂度与样本呈线性关系
很难发现任意形状的簇

机器学习-聚类之K-Means原理

 

 

相关文章:

  • 2021-10-10
  • 2022-12-23
  • 2022-12-23
  • 2021-12-19
  • 2021-11-08
  • 2021-11-03
  • 2022-12-23
  • 2022-01-21
猜你喜欢
  • 2021-10-14
  • 2021-05-26
  • 2021-04-23
  • 2021-06-15
  • 2021-05-04
  • 2021-10-07
相关资源
相似解决方案