今日的蒋老师课堂又开课啦!最近有一些小伙伴提问什么是聚类分析鸭?今天,蒋老师就带你深入认识何为聚类分析~
聚类分析是一种无监督的学习方式,通过样本数据间的内在联系进行分类。不仅如此,在各行各业的实际应用上它还有强大的功能。
在商业上,聚类分析是细分市场的有效工具,被用来发现不同的客户群,并通过刻画不同消费客户群的特征,用于研究消费者行为,寻找新的潜在市场。
在保险行业上,可以通过平均消费来鉴定汽车保险单持有者的分组,同时可以根据住宅类型、价值、地理位置来鉴定城市的房产分组。
在电商业,通过分组聚类出相似浏览行为的客户,并分析客户的共同特征,从而帮助电商企业了解自己的客户,向客户提供更合适的服务。
在互联网应用上,被用来在网上进行文档归类。
在生物上,被用来对动植物和基因进行分类,以获取对种群固有结构的认识。
接下来,要进入深度学习原理环节啦,带上小本本儿,做好笔记~
1.聚类分析原理
首先,介绍一下样本与样本间距离
1.1 样本与样本间距离
样本与样本间距离,可以有各种不同的定义,下面公式中的表示第个样本和第个样本之间的距离。表示第个样本和第个变量的观测值,常用的距离定义有:
- 绝对值距离
- 欧式距离
- 闵可夫斯基(Minkovski)距离
当时,就是绝对值距离,当时,就是欧氏距离。 - 马氏(mahalanobis)距离
其中
是第个样本的观测值,是全部观测数据的协方差矩阵。
1.2 类与类间距离
类与类距离,比较各种聚类方法,主要分为系统聚类和K-means聚类:
- Hierarchical(系统聚类):
* Single-linkage:要比较的距离为元素对之间的最小距离
* Complete-linkage:要比较的距离为元素对之间的最大距离
* Group average:要比较的距离为类之间的平均距离,平方的平均值
* Median-linkage:两两样本点距离的中值
* Ward‘s method(离差平方和法) - K-means
1.3 系统聚类
- 把所有样品都当作一个类,类与类距离就是样品与样品之间距离。
- 找出距离最近的两个类,组成一个新的类,总类数减一。
- 重复2,直到最后合成一类。
1.4 K-means聚类
- 在样本中随机选取K个点,作为每一类的中心点。
- 计算剩下 n-K 个样本点到每个聚类中心的距离(距离有很多种,假设这里采用欧式距离)。对于每一个样本点,将它归到和他距离最近的聚类中心所属的类。
- 重新计算每个聚类中心的位置:步骤 2 中得到的结果是 n 个点都有自己所属的类,将每一个类内的所有点取平均值(这里假设是二维空间,即对 x 和 y 坐标分别取平均),计算出新的聚类中心。
- 重复步骤 2 和 3 的操作,直到所有的聚类中心不再改变。
2.聚类分析案例——世界杯16强分类
某年足球世界杯赛,最后有16支球队进入前16名,这些球队在进入决赛前的分组赛中的进球数和失球数统计如下:
我们首先导入数据文件footballgame.xlsx
点击Task-Analyze-Cluster-Analyze
点击Task-Analyze-Cluster-Analyze,发现聚类方法和距离各有很多选择。
我们先分为5类,分类方法选择Hierarchical average linkage类平均法,距离选择欧氏距离,点击ok
若想分成自己想要的种类数,则要选择不同的number of clusters。
好啦!今日的蒋老师课堂到这里就结束了,欢迎大家踊跃探讨提问鸭~