1、层次聚类(Hierarchical clustering)的步骤

假设有N个待聚类的样本,对于层次聚类来说,其步骤为:

(1)初始化:把每个样本各自归为一类(每个样本自成一类),计算每两个类之间的距离,在这里也就是样本与样本之间的相似度(本质还是计算类与类之间的距离)。

(2)寻找各个类之间最近的两个类,把它们归为一类(这样,类的总数就减少了一个)

(3)重新计算新生成的这个类与各个旧类之间的距离(相似度)

(4)重复(2)(3)步,直到所有的样本都归为一类,结束。

机器学习——非监督学习——层次聚类(Hierarchical clustering)

2、详细描述:

整个聚类过程其实是建立了一棵树,在建立过程中,可以通过第二步上设置一个阈值,当最近的两个类的距离大于这个阈值,则认为迭代终止

机器学习——非监督学习——层次聚类(Hierarchical clustering)

另外,关键的一步是第三步,如何判断两个类之间的相似度有不少种方法,下面介绍三种:

(1)SingleLinkage:又叫做nearest-neighbor,就是取两个类中最近的两个样本之间的距离作为两个集合的距离,即:最近的两个样本之间的距离越小,

这两个类之间相似度越大,容易造成一种叫做Chaining的效果,两个类明明从“大局”上离的比较远,但由于其中个别点距离比较近就被合并了。

这种合并之后Chaining效应会进一步扩大,最后得到比较松散的聚类cluster。

(2)Complete Linkage:完全是SingleLinkage的反面极端,取两个集合距离最远的两个点的距离作为两个集合的距离,其效果也刚好相反,限制非常大。

两个聚类cluster即使已经很接近了,但是只要有不配合的带你存在,就顽固到底,老死不相合并,也是不太好的办法,这两种相似度定义方法共同问题就是:

只考虑了某个特有的数据,而没有考虑类数据整体的特点。

(3)Average Linkage:这种方法就是把两个集合中的点两两距离全部放在一起求平均值,相应的能得到一点合适的结果。

Average Linkage的一个变种就是取两两距离的中值,与取平均值相比更加能够解除个别偏离样本对结果的干扰。

相关文章:

  • 2021-09-12
  • 2021-12-28
  • 2021-07-16
  • 2022-02-08
  • 2021-08-07
  • 2021-09-09
  • 2022-01-16
猜你喜欢
  • 2021-06-10
  • 2021-08-17
  • 2021-07-30
  • 2021-12-28
  • 2021-10-17
  • 2021-11-22
  • 2021-07-27
相关资源
相似解决方案