几种常用的聚类方法

聚类方法

K-Means
Sequential Leader
Model Based Methods
Density Based Methods
几种常用的聚类方法

一般流程

几种常用的聚类方法
原始数据在经过不同的变换后会产生不同的聚类结果。

当数据分布不是球形分布式，也易造成分类错误。

上图的横坐标表示距离s（最大值为1，会小于0），纵坐标为所有点。一个点画一条线：s越大，线越长。

K-Means

几种常用的聚类方法
缺点：数据点很大，会导致效果较慢；K值的确定很困难；会收敛至局部最优；噪点敏感（因为均值对噪点敏感）；对非球形分布的数据聚类效果不太好。

Sequential Leader

依次判断每个点，如果这个还没有簇的话，这个点自己成为一个类，如果已经有簇了，如果这个点到已有簇们的距离最小值足够小，就归为距离最小值的一簇，如果距离别的簇都很距离都不够小，那么设为新的一簇。
几种常用的聚类方法

Model Based Methods—高斯混合模型

几种常用的聚类方法

EM算法—通过K-Means引入

k-means中每个样本所属的类就可以看成是一个隐变量，在E步中，我们固定每个类的中心，通过对每一个样本选择最近的类优化目标函数，在M步，重新更新每个类的中心点，该步骤可以通过对目标函数求导实现，最终可得新的类中心就是类中样本的均值。
EM算法就是这样，假设我们想估计知道A和B两个参数，在开始状态下二者都是未知的，但如果知道了A的信息就可以得到B的信息，反过来知道了B也就得到了A。可以考虑首先赋予A某种初值，以此得到B的估计值，然后从B的当前值出发，重新估计A的取值，这个过程一直持续到收敛为止。
几种常用的聚类方法

最大似然估计（MLE）

概率vs似然

概率：已知硬币的参数，推测抛硬币的各种情况的可能性
假设已知硬币是均匀的，即硬币出现正反均为0.5。
那么我们就可以推测，扔10次硬币，出现5次“花”朝上的概率为（遵循二项分布）：
几种常用的聚类方法
似然：假设硬币的参数未知，通过抛硬币的情况去推测硬币的参数。
现在有一个正反面不是很匀称的硬币，如果正面朝上记为H，反面朝上记为T，抛10次的结果如下：
T，T，T，H，T，T，T，H，T，T
求这个硬币正面朝上的概率有多大？
很显然概率是0.2。现在我们用最大似然估计的思想去求解它。似然函数为：
几种常用的聚类方法
xi=1表示正面朝上，xi=0表示反面朝上

似然函数求导：

结果为：

很显然结果是0.2。
如下图所示，已知不均匀硬币A,B出现正面朝上的分布情况，求A,B正面朝上的概率。

最大期望算法（EM）

最大期望算法经过两个步骤交替进行计算：
第一步是计算期望（E），利用对隐藏变量的现有估计值，计算其最大似然估计值；
第二步是最大化（M），最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中，这个过程不断交替进行。
如下图所示，已知2枚硬币，出现正面朝上的情况如下，但是未记录每次丢的是A硬币还是B硬币，分别求A,B正面朝上的概率。
几种常用的聚类方法
（1）、初始化参数：
（2）、由贝叶斯公式，分别计算A,B出现正面朝上的概率

（3）、实际发生正面向上的次数是5,所以这次硬币A正面向上的期望为5∗0.45=2.2，反面向上的期望为5∗0.45=2.2；硬币B正面向上的期望为5∗0.55=2.8，硬币B反面向上的期望为5∗0.55=2.8。依次计算出A,B正反面朝上的次数。
（4）、更新：
几种常用的聚类方法
（5）、迭代多次后正面向上概率收敛，得到预测结果。

Density Based Methods

几种常用的聚类方法

DBSCAN

DBSCAN聚类
几种常用的聚类方法

Hierarchical Clustering

几种常用的聚类方法