聚类方法

K-Means
Sequential Leader
Model Based Methods
Density Based Methods
几种常用的聚类方法

一般流程

几种常用的聚类方法
原始数据在经过不同的变换后会产生不同的聚类结果。
几种常用的聚类方法
当数据分布不是球形分布式,也易造成分类错误。
几种常用的聚类方法
几种常用的聚类方法
上图的横坐标表示距离s(最大值为1,会小于0),纵坐标为所有点。一个点画一条线:s越大,线越长。

K-Means

几种常用的聚类方法
缺点:数据点很大,会导致效果较慢;K值的确定很困难;会收敛至局部最优;噪点敏感(因为均值对噪点敏感);对非球形分布的数据聚类效果不太好。

Sequential Leader

依次判断每个点,如果这个还没有簇的话,这个点自己成为一个类,如果已经有簇了,如果这个点到已有簇们的距离最小值足够小,就归为距离最小值的一簇,如果距离别的簇都很距离都不够小,那么设为新的一簇。
几种常用的聚类方法

Model Based Methods—高斯混合模型

几种常用的聚类方法

EM算法—通过K-Means引入

k-means中每个样本所属的类就可以看成是一个隐变量,在E步中,我们固定每个类的中心,通过对每一个样本选择最近的类优化目标函数,在M步,重新更新每个类的中心点,该步骤可以通过对目标函数求导实现,最终可得新的类中心就是类中样本的均值。
EM算法就是这样,假设我们想估计知道A和B两个参数,在开始状态下二者都是未知的,但如果知道了A的信息就可以得到B的信息,反过来知道了B也就得到了A。可以考虑首先赋予A某种初值,以此得到B的估计值,然后从B的当前值出发,重新估计A的取值,这个过程一直持续到收敛为止。
几种常用的聚类方法

最大似然估计(MLE)

概率vs似然

概率:已知硬币的参数,推测抛硬币的各种情况的可能性
假设已知硬币是均匀的,即硬币出现正反均为0.5。
那么我们就可以推测,扔10次硬币,出现5次“花”朝上的概率为(遵循二项分布):
几种常用的聚类方法
似然:假设硬币的参数未知,通过抛硬币的情况去推测硬币的参数。
现在有一个正反面不是很匀称的硬币,如果正面朝上记为H,反面朝上记为T,抛10次的结果如下:
T,T,T,H,T,T,T,H,T,T
求这个硬币正面朝上的概率有多大?
很显然概率是0.2。现在我们用最大似然估计的思想去求解它。似然函数为:
几种常用的聚类方法
xi=1表示正面朝上,xi=0表示反面朝上
几种常用的聚类方法
似然函数求导:
几种常用的聚类方法
结果为:
几种常用的聚类方法
很显然结果是0.2。
如下图所示,已知不均匀硬币A,B出现正面朝上的分布情况,求A,B正面朝上的概率。
几种常用的聚类方法

最大期望算法(EM)

最大期望算法经过两个步骤交替进行计算:
第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;
第二步是最大化(M),最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中,这个过程不断交替进行。
如下图所示,已知2枚硬币,出现正面朝上的情况如下,但是未记录每次丢的是A硬币还是B硬币,分别求A,B正面朝上的概率。
几种常用的聚类方法
(1)、初始化参数:几种常用的聚类方法
(2)、由贝叶斯公式,分别计算A,B出现正面朝上的概率
几种常用的聚类方法
几种常用的聚类方法
几种常用的聚类方法
(3)、实际发生正面向上的次数是5,所以这次硬币A正面向上的期望为5∗0.45=2.2,反面向上的期望为5∗0.45=2.2;硬币B正面向上的期望为5∗0.55=2.8,硬币B反面向上的期望为5∗0.55=2.8。依次计算出A,B正反面朝上的次数。
(4)、更新:
几种常用的聚类方法
(5)、迭代多次后正面向上概率收敛,得到预测结果。
几种常用的聚类方法
几种常用的聚类方法

Density Based Methods

几种常用的聚类方法

DBSCAN

DBSCAN聚类
几种常用的聚类方法

Hierarchical Clustering

几种常用的聚类方法
几种常用的聚类方法

相关文章: