【问题标题】:Why does classification accuracy of K-means clustering decrease with more training data?为什么 K-means 聚类的分类精度会随着训练数据的增加而降低?
【发布时间】:2019-09-17 17:07:01
【问题描述】:

我想对视频中的动作进行分类。为此,将K-means聚类应用于光流点以生成码本。

使用k=200,最初的准确率为 85%。添加训练数据后,准确率为 50%。如果k=400,准确率回到85%。

如何针对我的训练数据自动优化k 的值?

【问题讨论】:

  • 欢迎来到机器学习。不幸的是,没有一个答案可以解决所有问题。
  • K-means 在某些数据上非常不稳定。运行它几次,你可以获得非常多样化的结果——这通常表明它们都不是好的。因此,您可能还会遇到一些评估问题。 “准确度”在聚类中不常用。
  • k-means 聚类用于创建码本。上述准确度是最终分类器的准确度。

标签: python scikit-learn cluster-analysis k-means


【解决方案1】:

KMeans 聚类会降低您的 MSE,而最佳聚类数的答案是“视情况而定”。您可以使用肘法来找到最佳聚类数。这是一个link,您可以通过它找到更多详细信息。

【讨论】:

  • 我尝试了 here 的肘部方法,仅绘制 5 个不同的 k 值就花了几个小时
  • 有什么方法可以缩短计算时间?
  • 很遗憾没有。我认为所有这些都需要时间。您可以尝试平均轮廓和差距统计。
  • 平均轮廓分数图在 +1 和 -1 区域都有峰值,我无法解释它。我会尝试差距统计
猜你喜欢
  • 1970-01-01
  • 2013-01-09
  • 2019-04-14
  • 2020-02-19
  • 2018-09-12
  • 2014-01-08
  • 2022-01-19
  • 1970-01-01
  • 2015-06-02
相关资源
最近更新 更多