机器学习——非监督学习——层次聚类（Hierarchical clustering）

1、层次聚类（Hierarchical clustering）的步骤

假设有N个待聚类的样本，对于层次聚类来说，其步骤为：

（1）初始化：把每个样本各自归为一类（每个样本自成一类），计算每两个类之间的距离，在这里也就是样本与样本之间的相似度（本质还是计算类与类之间的距离）。

（2）寻找各个类之间最近的两个类，把它们归为一类（这样，类的总数就减少了一个）

（3）重新计算新生成的这个类与各个旧类之间的距离（相似度）

（4）重复（2）（3）步，直到所有的样本都归为一类，结束。

机器学习——非监督学习——层次聚类（Hierarchical clustering）

2、详细描述：

整个聚类过程其实是建立了一棵树，在建立过程中，可以通过第二步上设置一个阈值，当最近的两个类的距离大于这个阈值，则认为迭代终止。

机器学习——非监督学习——层次聚类（Hierarchical clustering）

另外，关键的一步是第三步，如何判断两个类之间的相似度有不少种方法，下面介绍三种：

（1）SingleLinkage：又叫做nearest-neighbor，就是取两个类中最近的两个样本之间的距离作为两个集合的距离，即：最近的两个样本之间的距离越小，

这两个类之间相似度越大，容易造成一种叫做Chaining的效果，两个类明明从“大局”上离的比较远，但由于其中个别点距离比较近就被合并了。

这种合并之后Chaining效应会进一步扩大，最后得到比较松散的聚类cluster。

（2）Complete Linkage：完全是SingleLinkage的反面极端，取两个集合距离最远的两个点的距离作为两个集合的距离，其效果也刚好相反，限制非常大。

两个聚类cluster即使已经很接近了，但是只要有不配合的带你存在，就顽固到底，老死不相合并，也是不太好的办法，这两种相似度定义方法共同问题就是：

只考虑了某个特有的数据，而没有考虑类数据整体的特点。

（3）Average Linkage：这种方法就是把两个集合中的点两两距离全部放在一起求平均值，相应的能得到一点合适的结果。

Average Linkage的一个变种就是取两两距离的中值，与取平均值相比更加能够解除个别偏离样本对结果的干扰。