【发布时间】:2013-08-19 13:48:41
【问题描述】:
我一直在研究 k-means 聚类,但不清楚的一件大事是 Silhouette 函数真正告诉我什么?
我知道它表明应该确定什么合适的 k,但我无法理解轮廓函数的真正含义是什么?
我在某处读到,如果轮廓的平均值小于 0.5,则您的聚类无效。
提前感谢您的回答。
【问题讨论】:
标签: matlab cluster-analysis k-means
我一直在研究 k-means 聚类,但不清楚的一件大事是 Silhouette 函数真正告诉我什么?
我知道它表明应该确定什么合适的 k,但我无法理解轮廓函数的真正含义是什么?
我在某处读到,如果轮廓的平均值小于 0.5,则您的聚类无效。
提前感谢您的回答。
【问题讨论】:
标签: matlab cluster-analysis k-means
来自silhouette的定义:
剪影值
每个点的轮廓值是衡量该点相似程度的指标 点是与其他集群中的点相比,它自己的集群中的点 簇,范围从 -1 到 +1。
第 i 个点 Si 的轮廓值定义为
Si = (bi-ai)/ max(ai,bi) 其中 ai 是到第 i 个的平均距离 指向与 i 在同一簇中的其他点,bi 是 从第 i 个点到不同点的最小平均距离 集群,在集群上最小化。
这种方法只是将组内相似度与最接近的组相似度进行比较。如果任何数据成员到同一个集群的其他成员的平均距离高于到其他一些集群成员的平均距离,那么这个值是负的,集群是不成功的。另一方面,接近 1 的 silhuette 值表示成功的聚类操作。 0.5 不是聚类的精确度量。
【讨论】:
@fatihk 给出了很好的引用;
【讨论】:
有一个与肘法相关的显式公式可以自动确定聚类的数量。该公式告诉您在使用肘部方法确定聚类数量时检测到的肘部强度,请参阅here。请参阅此处的插图: Enhanced Elbow rule
【讨论】: