【发布时间】:2016-08-12 08:01:01
【问题描述】:
关于 DBSCAN 的文章“https://www.aaai.org/Papers/KDD/1996/KDD96-037.pdf”解释说,对于使用 DBSCAN 对数据点进行聚类的任何数据集,minpts 值必须为 4。对于任何 EPS 值,它是否给出了最好的结果??
【问题讨论】:
标签: parameters cluster-analysis dbscan
关于 DBSCAN 的文章“https://www.aaai.org/Papers/KDD/1996/KDD96-037.pdf”解释说,对于使用 DBSCAN 对数据点进行聚类的任何数据集,minpts 值必须为 4。对于任何 EPS 值,它是否给出了最好的结果??
【问题讨论】:
标签: parameters cluster-analysis dbscan
通常,您的 minpts 值应 >= d + 1,其中 d 是数据点的维度。因此,通常将其视为 Erich Schubert 在第一个答案中提到的 minpts = 2*d。
但在某些情况下,当您知道数据集包含大量噪声/异常值时,建议将 minpts 的值设置得较大。
有时您可能需要咨询领域专家才能获得 minpts 的价值。
【讨论】:
在以后的工作中,作者建议使用 minPts = 2 * dim 作为默认值。
J。 Sander,M. Ester,H.-P。 Kriegel 和 X. Xu。 1998.
空间数据库中基于密度的聚类:
GDBSCAN 算法及其应用。
数据挖掘和知识发现 2, 2 (1998), 169–194。http://dx.doi.org/10.1023/A:1009745219419
如果有重复,请使用更大的值: "我们的实验表明,该值适用于每个点仅出现一次的数据库 D,即,如果 D 确实是一组点。"
较小的值通常计算效率更高。因此,保持 minPts 小但不能太小。
总是研究你的结果。千万不要在没有仔细检查的情况下使用它。
【讨论】:
没有“永远是最好的”这样的东西。 IIRC 作者建议首先尝试该值。这并不意味着您有时不应该尝试其他值。我通常从 minpts=10 开始...
此外,您仍然需要改变 epsilon。选择正确的 epsilon 可能比 minpts 更重要。这两个参数不是独立的。增加 minpts 可能意味着您需要 增加 epsilon,反之亦然。
【讨论】: