今日的蒋老师课堂又开课啦!最近有一些小伙伴提问什么是聚类分析鸭?今天,蒋老师就带你深入认识何为聚类分析~

聚类分析是一种无监督的学习方式,通过样本数据间的内在联系进行分类。不仅如此,在各行各业的实际应用上它还有强大的功能。

在商业上,聚类分析是细分市场的有效工具,被用来发现不同的客户群,并通过刻画不同消费客户群的特征,用于研究消费者行为,寻找新的潜在市场。

在保险行业上,可以通过平均消费来鉴定汽车保险单持有者的分组,同时可以根据住宅类型、价值、地理位置来鉴定城市的房产分组。

在电商业,通过分组聚类出相似浏览行为的客户,并分析客户的共同特征,从而帮助电商企业了解自己的客户,向客户提供更合适的服务。

在互联网应用上,被用来在网上进行文档归类。

在生物上,被用来对动植物和基因进行分类,以获取对种群固有结构的认识。

接下来,要进入深度学习原理环节啦,带上小本本儿,做好笔记~

1.聚类分析原理

首先,介绍一下样本与样本间距离

1.1 样本与样本间距离

样本与样本间距离,可以有各种不同的定义,下面公式中的dij(i=1,2,,n,j=1,2,,n)d_{ij}(i=1,2,\dots,n,j=1,2,\dots,n)表示第ii个样本和第jj个样本之间的距离。xik(i=1,2,,n,k=1,2,,m)x_{ik}(i=1,2,\dots,n,k=1,2,\dots,m)表示第ii个样本和第kk个变量的观测值,常用的距离定义有:

  1. 绝对值距离
    dij=k=1mxikxjkd_{ij}=\sum_{k=1}^m |x_{ik}-x_{jk}|
  2. 欧式距离
    dij=k=1m(xikxjk)2d_{ij}=\sqrt{\sum_{k=1}^{m}(x_{ik}-x{jk})^2}
  3. 闵可夫斯基(Minkovski)距离
    dij=(k=1mxikxjkq)1/qd_{ij}=(\sum_{k=1}^m|x_{ik}-x_{jk}|^q)^{1/q}
    q=1q=1时,就是绝对值距离,当q=2q=2时,就是欧氏距离。
  4. 马氏(mahalanobis)距离
    dij=(xixj)TS1(xixj)d_{ij}=\sqrt{(x_i-x_j)^TS^{-1}(x_i-x_j)} 其中
    xi=[xi1xim]{x_i} =\left[ \begin{matrix} x_{i1} \\ \vdots \\ x_{im}\end{matrix} \right]
    是第ii个样本的观测值,SS是全部观测数据的协方差矩阵。

1.2 类与类间距离

类与类距离,比较各种聚类方法,主要分为系统聚类和K-means聚类:

  • Hierarchical(系统聚类):
    * Single-linkage:要比较的距离为元素对之间的最小距离
    * Complete-linkage:要比较的距离为元素对之间的最大距离
    * Group average:要比较的距离为类之间的平均距离,平方的平均值
    * Median-linkage:两两样本点距离的中值
    * Ward‘s method(离差平方和法)
  • K-means

1.3 系统聚类

  1. 把所有样品都当作一个类,类与类距离就是样品与样品之间距离。
  2. 找出距离最近的两个类,组成一个新的类,总类数减一。
  3. 重复2,直到最后合成一类。

1.4 K-means聚类

  1. 在样本中随机选取K个点,作为每一类的中心点。
  2. 计算剩下 n-K 个样本点到每个聚类中心的距离(距离有很多种,假设这里采用欧式距离)。对于每一个样本点,将它归到和他距离最近的聚类中心所属的类。
  3. 重新计算每个聚类中心的位置:步骤 2 中得到的结果是 n 个点都有自己所属的类,将每一个类内的所有点取平均值(这里假设是二维空间,即对 x 和 y 坐标分别取平均),计算出新的聚类中心。
  4. 重复步骤 2 和 3 的操作,直到所有的聚类中心不再改变。

2.聚类分析案例——世界杯16强分类

某年足球世界杯赛,最后有16支球队进入前16名,这些球队在进入决赛前的分组赛中的进球数和失球数统计如下:
听说聚类分析的自我学习能力又增强了?!
我们首先导入数据文件footballgame.xlsx
听说聚类分析的自我学习能力又增强了?!
点击Task-Analyze-Cluster-Analyze
听说聚类分析的自我学习能力又增强了?!
点击Task-Analyze-Cluster-Analyze,发现聚类方法和距离各有很多选择。
听说聚类分析的自我学习能力又增强了?!
听说聚类分析的自我学习能力又增强了?!
我们先分为5类,分类方法选择Hierarchical average linkage类平均法,距离选择欧氏距离,点击ok
听说聚类分析的自我学习能力又增强了?!
听说聚类分析的自我学习能力又增强了?!

若想分成自己想要的种类数,则要选择不同的number of clusters。

好啦!今日的蒋老师课堂到这里就结束了,欢迎大家踊跃探讨提问鸭~

相关文章:

  • 2021-06-30
  • 2022-01-16
  • 2022-12-23
  • 2021-09-14
  • 2021-04-20
  • 2022-12-23
  • 2021-09-02
  • 2021-12-05
猜你喜欢
  • 2021-11-27
  • 2021-11-25
  • 2021-04-14
  • 2022-12-23
  • 2021-04-26
  • 2021-08-17
  • 2021-09-26
相关资源
相似解决方案