【发布时间】:2018-08-28 19:20:02
【问题描述】:
我使用 DBSCAN 算法对空间数据集进行了聚类,并在 250000 个数据中生成了大量噪声 193000。这个数额合理吗?
【问题讨论】:
标签: cluster-analysis noise outliers dbscan
我使用 DBSCAN 算法对空间数据集进行了聚类,并在 250000 个数据中生成了大量噪声 193000。这个数额合理吗?
【问题讨论】:
标签: cluster-analysis noise outliers dbscan
首先,解决标题中的问题。通过制作eps
很大,很容易得到无噪声点,所有点都是
在一个大集群中。通过使eps 非常小,您可以轻松地
使所有点成为噪声点。一般来说,介于两者之间
就是你要找的。你的工作是找到产生的价值
有意义的聚类。那是评论的地方
@Anony-Mousse 发挥作用。
取决于您的数据和问题
正如他所建议的,如果你有 uniform 随机数据,也许所有
噪音是最好的答案。如果你有 Gaussian 随机数据,
也许一个带有一些异常值的大集群是好的。但这是
应该可以帮助您了解您的数据的结构。
当你改变 eps 时会发生什么?从您当前的集群
有很多噪音点,当你逐渐增加eps 时会发生什么?
它是否会逐渐在现有集群中添加一些噪声点?
有没有两个集群合并为一个的地方?有没有
集群数量突然变化的地方?
另外,你能根据你的变量来解释集群吗?
也许两个集群之间的区别在于,在一个集群中
一些变量的值很低,而在另一个集群中它们很高。考虑到您要解决的任何问题,
集群是否将数据划分为有意义的组?尝试使用
聚类以在您的数据中找到意义。
【讨论】:
取决于您的数据和问题。
如果我生成随机坐标,则 100% 的噪声是合适的,因为数据是随机噪声。
【讨论】: