如何使用自组织地图对数据进行聚类？答案

【问题标题】：How to cluster data using self-organising maps?如何使用自组织地图对数据进行聚类？
【发布时间】：2018-09-02 14:56:49
【问题描述】：

假设我们使用给定的数据集训练自组织地图 (SOM)。聚类 SOM 的神经元而不是原始数据点是否有意义？看了this paper之后，我产生了这个疑问，其中陈述了以下内容：

此过程最重要的好处是计算负载大大减少，使得可以对大型数据集进行聚类并考虑几个在有限的时间内不同的预处理策略。自然，仅当使用 SOM 找到的集群时，该方法才有效与原始数据相似。

在this answer 中明确指出 SOM 不包括聚类，但在 SOM 训练后可以在 SOM 上进行一些聚类过程。我认为这意味着聚类是在 SOM 的神经元上完成的，这在某种意义上是原始数据的映射，但我不确定这一点。所以，我想知道的是：

【问题讨论】：

【解决方案1】：

是的，通常的方法似乎是分层或 k-means（您需要了解它是如何最初完成的 - 正如您链接的论文中所见，许多变体包括稍后已经探索了两级方法）在神经元上。如果您将 SOM 视为一种量化和投影技术，那么所有这些方法都可以使用。

它更便宜，因为它们只是 2 维的欧几里得，而且点数要少得多。所以这很符合你的来源。

请注意，SOM 神经元可能是空的，它位于两个分离得非常好的簇之间。

【讨论】：

感谢您的回复。我很难理解你的最后两段。 1) 假设原始数据点的维度为N。然后，每个神经元也将由维度为N 的权重向量表示。那么......为什么你说它们只是二维的？我知道网格是 2D 形式的，但是在聚类时尺寸并没有减少，或者是吗？ 2) “SOM 神经元可能为空”是什么意思？
聚类甚至可能在 2d 网格坐标上，并且您通过最接近它们的点的数量来加权神经元，这可能是 0。
我得到了空神经元的东西。尽管如此，我还没有看到如何使用神经元的 2D 位置来帮助进行聚类。抱歉，如果这太基本了，但您能提供更多信息吗？
这也是漂亮的 SOM 图的工作原理。在 2d 中，不是原始坐标。 Umatrix等