【发布时间】:2013-09-20 07:53:15
【问题描述】:
如果要聚类的数据实际上是点(2D (x, y) 或 3D (x, y,z)),那么选择聚类方法将非常直观。因为我们可以将它们绘制出来并可视化它们,所以我们更清楚哪种聚类方法更合适。
eg1 如果我的 2D 数据集是右上角显示的格式,我会知道 K-means 在这里可能不是一个明智的选择,而 DBSCAN 似乎是一个更好的主意。
然而,正如the scikit-learn website 所说:
虽然这些示例给出了一些关于算法的直觉,但是这 直觉可能不适用于非常高维的数据。
AFAIK,在大多数盗版问题中,我们没有这么简单的数据。很可能,我们有高维元组,不能像数据那样可视化。
e.g.2 我希望对一个数据集进行聚类,其中每个数据都表示为一个 4-D 元组 <characteristic1, characteristic2, characteristic3, characteristic4>。我无法在坐标系中可视化它并像以前一样观察它的分布。所以在这种情况下,我不能说DBSCAN 优于K-means。
所以我的问题:
如何为这种“不可见”的高维案例选择合适的聚类方法?
【问题讨论】:
-
character1?你的意思是你有长度为4的字符串?那么你可能不应该直接聚集在那个空间中,而是先进行一次热编码。 -
@larsmans 哎呀!抱歉错字。请参阅编辑。
-
4 维根本不是“高维”,你的 3 维直觉仍然有效。
-
确实,高维从 10k 个特征开始 :)
标签: machine-learning cluster-analysis data-mining