【问题标题】:rapidminer: cluster performance operators..what does different value mean?rapidminer:集群性能运营商..不同的值是什么意思?
【发布时间】:2013-07-15 18:47:49
【问题描述】:

我必须在 rapidminer 中使用不同的性能算子检查各种集群算法的性能。为此,我想知道以下几点:

  1. 簇数索引值表示什么是簇数性能算子的输出?
  2. 集群距离和平均值内的平均值的小值和大值有何作用。质心距离内的聚类好坏均值?
  3. 我还想检查其他索引值,例如 Dunn 索引、Jaccard 索引、Fowlkes–Mallows 等各种聚类算法。但是 rapidminer 没有任何操作员,为此该怎么办。我没有使用 R 的经验。

【问题讨论】:

  • 您是否将Rstats 与 Rapidminer 中的某些内容混淆了? “R”标签用于 Rstats..
  • 考虑使用 ELKI。如果您有标记数据,它将为您提供广泛的集群质量指数。

标签: cluster-analysis k-means rapidminer


【解决方案1】:

我复制了我在 Rapid-I 论坛上提供的 answer 的一部分

簇数索引是簇的计数 - 你可能会说毫无意义,但当与 DBSCAN 一起使用时,它可能会非常有趣http://rapidminernotes.blogspot.co.uk/2010/12/counting-clusters.html

聚类和质心距离内的平均值很难解释 - 在这种情况下,要搜索的一件事是“肘部标准”。随着聚类数量的变化,请注意有效性度量如何变化,并寻找一个“弯头”,它标志着度量的自然进展支配结构的点。

R 有许多有效性度量,值得投入一些时间,因为您始终可以从 RapidMiner 调用 R 流程,这样可以更轻松地了解正在发生的事情。

【讨论】:

    猜你喜欢
    • 2017-07-14
    • 2010-10-24
    • 1970-01-01
    • 2023-03-04
    • 2011-11-19
    • 2018-01-11
    • 1970-01-01
    • 1970-01-01
    • 2018-06-27
    相关资源
    最近更新 更多