【发布时间】:2019-11-18 02:54:54
【问题描述】:
平滑图表,无法确定最佳kmeans数 如何处理这样的问题?谢谢
wcss = []
for i in range(1, 40):
kmeans = KMeans(n_clusters = i, init = 'k-means++', random_state = 42)
kmeans.fit(df)
wcss.append(kmeans.inertia_)
【问题讨论】:
-
肘部方法几乎不是科学,但我想这个想法是找到斜率变化最大的点,所以对于“平滑”曲线可能找到二阶导数的最优值?不然看看剪影?
-
由于它与编码或编程无关,因此对于Data Science SE,这可能是一个更好的问题。也就是说,这种解释是数据科学和机器学习艺术的用武之地。这将取决于集群的数量可以为您提供对实际数据的最佳和最具代表性的描述。尝试在每个数字上绘制一些数据点或其他一些描述性统计数据