【问题标题】:Does minpts=4 is the best setting for any dataset using DBSCAN algorithm for clustering?对于使用 DBSCAN 算法进行聚类的任何数据集,minpts=4 是否是最佳设置?
【发布时间】:2016-08-12 08:01:01
【问题描述】:

关于 DBSCAN 的文章“https://www.aaai.org/Papers/KDD/1996/KDD96-037.pdf”解释说,对于使用 DBSCAN 对数据点进行聚类的任何数据集,minpts 值必须为 4。对于任何 EPS 值,它是否给出了最好的结果??

【问题讨论】:

    标签: parameters cluster-analysis dbscan


    【解决方案1】:

    通常,您的 minpts 值应 >= d + 1,其中 d 是数据点的维度。因此,通常将其视为 Erich Schubert 在第一个答案中提到的 minpts = 2*d。

    但在某些情况下,当您知道数据集包含大量噪声/异常值时,建议将 minpts 的值设置得较大。

    有时您可能需要咨询领域专家才能获得 minpts 的价值。

    【讨论】:

      【解决方案2】:

      在以后的工作中,作者建议使用 minPts = 2 * dim 作为默认值。

      J。 Sander,M. Ester,H.-P。 Kriegel 和 X. Xu。 1998.
      空间数据库中基于密度的聚类:
      GDBSCAN 算法及其应用。

      数据挖掘和知识发现 2, 2 (1998), 169–194。http://dx.doi.org/10.1023/A:1009745219419

      如果有重复,请使用更大的值: "我们的实验表明,该值适用于每个点仅出现一次的数据库 D,即,如果 D 确实是一组点。"

      较小的值通常计算效率更高。因此,保持 minPts 小但不能太小。

      总是研究你的结果。千万不要在没有仔细检查的情况下使用它。

      【讨论】:

        【解决方案3】:

        没有“永远是最好的”这样的东西。 IIRC 作者建议首先尝试该值。这并不意味着您有时不应该尝试其他值。我通常从 minpts=10 开始...

        此外,您仍然需要改变 epsilon。选择正确的 epsilon 可能比 minpts 更重要。这两个参数不是独立的。增加 minpts 可能意味着您需要 增加 epsilon,反之亦然。

        【讨论】:

          猜你喜欢
          • 2014-03-26
          • 2020-02-17
          • 2014-07-24
          • 2017-05-17
          • 2020-01-02
          • 2020-07-11
          • 2011-08-06
          • 2019-12-10
          • 2018-04-28
          相关资源
          最近更新 更多