DBSCAN 算法中是否有最大数量的噪声/异常值？答案

【问题标题】：Is there maximum number of noise/ outliers in DBSCAN algorithm?DBSCAN 算法中是否有最大数量的噪声/异常值？
【发布时间】：2018-08-28 19:20:02
【问题描述】：

我使用 DBSCAN 算法对空间数据集进行了聚类，并在 250000 个数据中生成了大量噪声 193000。这个数额合理吗？

【问题讨论】：

标签： cluster-analysis noise outliers dbscan

【解决方案1】：

首先，解决标题中的问题。通过制作eps 很大，很容易得到无噪声点，所有点都是在一个大集群中。通过使eps 非常小，您可以轻松地使所有点成为噪声点。一般来说，介于两者之间就是你要找的。你的工作是找到产生的价值 有意义的聚类。那是评论的地方 @Anony-Mousse 发挥作用。

取决于您的数据和问题

正如他所建议的，如果你有 uniform 随机数据，也许所有噪音是最好的答案。如果你有 Gaussian 随机数据，也许一个带有一些异常值的大集群是好的。但这是应该可以帮助您了解您的数据的结构。当你改变 eps 时会发生什么？从您当前的集群有很多噪音点，当你逐渐增加eps 时会发生什么？它是否会逐渐在现有集群中添加一些噪声点？有没有两个集群合并为一个的地方？有没有集群数量突然变化的地方？
另外，你能根据你的变量来解释集群吗？也许两个集群之间的区别在于，在一个集群中一些变量的值很低，而在另一个集群中它们很高。考虑到您要解决的任何问题，集群是否将数据划分为有意义的组？尝试使用聚类以在您的数据中找到意义。

【讨论】：

【解决方案2】：

取决于您的数据和问题。

如果我生成随机坐标，则 100% 的噪声是合适的，因为数据是随机噪声。

【讨论】：