【问题标题】:Is there maximum number of noise/ outliers in DBSCAN algorithm?DBSCAN 算法中是否有最大数量的噪声/异常值?
【发布时间】:2018-08-28 19:20:02
【问题描述】:

我使用 DBSCAN 算法对空间数据集进行了聚类,并在 250000 个数据中生成了大量噪声 193000。这个数额合理吗?

【问题讨论】:

    标签: cluster-analysis noise outliers dbscan


    【解决方案1】:

    首先,解决标题中的问题。通过制作eps 很大,很容易得到无噪声点,所有点都是 在一个大集群中。通过使eps 非常小,您可以轻松地 使所有点成为噪声点。一般来说,介于两者之间 就是你要找的。你的工作是找到产生的价值 有意义的聚类。那是评论的地方 @Anony-Mousse 发挥作用。

    取决于您的数据和问题

    正如他所建议的,如果你有 uniform 随机数据,也许所有 噪音是最好的答案。如果你有 Gaussian 随机数据, 也许一个带有一些异常值的大集群是好的。但这是 应该可以帮助您了解您的数据的结构。 当你改变 eps 时会发生什么?从您当前的集群 有很多噪音点,当你逐渐增加eps 时会发生什么? 它是否会逐渐在现有集群中添加一些噪声点? 有没有两个集群合并为一个的地方?有没有 集群数量突然变化的地方?
    另外,你能根据你的变量来解释集群吗? 也许两个集群之间的区别在于,在一个集群中 一些变量的值很低,而在另一个集群中它们很高。考虑到您要解决的任何问题, 集群是否将数据划分为有意义的组?尝试使用 聚类以在您的数据中找到意义。

    【讨论】:

      【解决方案2】:

      取决于您的数据和问题。

      如果我生成随机坐标,则 100% 的噪声是合适的,因为数据是随机噪声。

      【讨论】:

        猜你喜欢
        • 2017-03-05
        • 2021-07-06
        • 2017-12-31
        • 1970-01-01
        • 2016-10-16
        • 2017-08-27
        • 2011-09-11
        • 2013-10-30
        • 1970-01-01
        相关资源
        最近更新 更多