【问题标题】:What methods are best for clustering multidimensional data that has irregular shape?什么方法最适合对形状不规则的多维数据进行聚类?
【发布时间】:2016-10-16 12:08:51
【问题描述】:

我是机器学习和数据分析的新手,我正在努力对我的数据进行聚类。我正在处理具有 6 个特征的大约 40,000 个观测值。

我尝试了各种聚类方法,包括 K-Means、DBSCAN,还尝试了带有链接的 scipy 层次聚类。在预处理期间,缺失数据被估算,所有数据都被标准化。一旦我完成 PCA 以将尺寸从 4 减少到 6,我的数据看起来就像一个新月形状,可以在下面看到为蓝点。

根据轮廓系数分析,我确定对 K-means 使用 10 个聚类是最好的,结果如下:

在对数据进行聚类后执行 PCA 时,结果变化不大。

DBSCAN 本身决定 4 个集群并给出 4 个集群,但大多数数据从这些集群中排除并被描述为噪声。

对于分层方法,尝试执行链接()时数据使用量过多,并不断提供内存错误消息。

有什么方法可以对我的数据进行聚类?我的数据的形状(新月形)是否适合其他建模方法?

【问题讨论】:

  • 具有 3 或 4 个集群的高斯混合模型可能很适合您的数据。

标签: machine-learning cluster-computing cluster-analysis hierarchical-clustering unsupervised-learning


【解决方案1】:

不要不考虑就运行集群首先

不得将聚类算法用作黑盒。它们需要小心使用,否则你只会得到垃圾。要正确使用它们,您需要了解每个算法的目标。 K-means 是最小二乘法。如果你在严重标准化的数据上使用它,它会失败。

从你的情节来看,你的数据库中有一条坏记录,很大程度上导致了那个“月亮”形状:一切都需要tp尽可能远离那个坏记录。

除此之外:1. 您是否针对您的问题正确地扩展了数据? 2. 你选择了合适的距离度量吗?

【讨论】:

  • 感谢您的回答!有不良记录是什么意思?您能否更具体地说明我如何才能摆脱它?
  • 您可以尝试异常值检测。在您发布的图中,x 为什么会这样?错误数据,或除以 0,或其他错误?他们肯定会毁了你的 PCA。
  • 所以我决定对我的数据进行标准化而不是标准化,因为数据中存在很大的偏差,并且我还摆脱了平均值超过 3 个标准差的异常值。虽然我的数据现在更加本地化,​​但它仍然没有形成明显的集群:postimg.org/image/yiez47u81我应该尝试高斯混合模型吗?
  • 3 个标准差可能是另一种异常值。我说的是异常数据,而不是统计异常值。这些也会损害高斯混合模型。识别 x 错误?
猜你喜欢
  • 2020-07-11
  • 2014-01-14
  • 1970-01-01
  • 2019-11-12
  • 2020-02-21
  • 1970-01-01
  • 2010-11-15
  • 2016-06-21
  • 1970-01-01
相关资源
最近更新 更多