【问题标题】:How to cluster data using self-organising maps?如何使用自组织地图对数据进行聚类?
【发布时间】:2018-09-02 14:56:49
【问题描述】:

假设我们使用给定的数据集训练自组织地图 (SOM)。聚类 SOM 的神经元而不是原始数据点是否有意义?看了this paper之后,我产生了这个疑问,其中陈述了以下内容:

此过程最重要的好处 是计算负载大大减少,使得 可以对大型数据集进行聚类并考虑几个 在有限的时间内不同的预处理策略。自然, 仅当使用 SOM 找到的集群时,该方法才有效 与原始数据相似。

this answer 中明确指出 SOM 不包括聚类,但在 SOM 训练后可以在 SOM 上进行一些聚类过程。我认为这意味着聚类是在 SOM 的神经元上完成的,这在某种意义上是原始数据的映射,但我不确定这一点。所以,我想知道的是:

  • 将训练的神经元权重作为数据点执行聚类算法的数据聚类是否正确?如果不是,那么如何使用 SOM 完成集群?
  • 一般而言,数据集应具备哪些特征才能使这种方法发挥作用?

【问题讨论】:

    标签: neural-network cluster-analysis data-science self-organizing-maps


    【解决方案1】:

    是的,通常的方法似乎是分层或 k-means(您需要了解它是如何最初完成的 - 正如您链接的论文中所见,许多变体包括稍后已经探索了两级方法)在神经元上。如果您将 SOM 视为一种量化和投影技术,那么所有这些方法都可以使用。

    它更便宜,因为它们只是 2 维的欧几里得,而且点数要少得多。所以这很符合你的来源。

    请注意,SOM 神经元可能是空的,它位于两个分离得非常好的簇之间。

    【讨论】:

    • 感谢您的回复。我很难理解你的最后两段。 1) 假设原始数据点的维度为N。然后,每个神经元也将由维度为N 的权重向量表示。那么......为什么你说它们只是二维的?我知道网格是 2D 形式的,但是在聚类时尺寸并没有减少,或者是吗? 2) “SOM 神经元可能为空”是什么意思?
    • 聚类甚至可能在 2d 网格坐标上,并且您通过最接近它们的点的数量来加权神经元,这可能是 0。
    • 我得到了空神经元的东西。尽管如此,我还没有看到如何使用神经元的 2D 位置来帮助进行聚类。抱歉,如果这太基本了,但您能提供更多信息吗?
    • 这也是漂亮的 SOM 图的工作原理。在 2d 中,不是原始坐标。 Umatrix等
    猜你喜欢
    • 2017-01-28
    • 1970-01-01
    • 2021-08-25
    • 2018-12-08
    • 1970-01-01
    • 2023-03-24
    • 2014-05-29
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多