执行 k 意味着对数据样本进行聚类[关闭]答案

【问题标题】：Performing k means clustering with a sample of the data [closed]执行 k 意味着对数据样本进行聚类[关闭]
【发布时间】：2013-06-04 19:40:07
【问题描述】：

我是一名医学物理硕士生，目前正在撰写我的论文。这项工作包括从内窥镜图像中提取特征并使用 SVM 进行分类。我有 4 种类型的图像。类型 1 是非癌症图像，类型 2、3 和 4 是癌前图像。我将问题简化为两级系统。 C1 类，类型 1 图像和 C2 类所有其他图像。

我使用的方法如下：我使用密集的 SIFT 从每个图像中提取特征。所以我获得了描述符，比如每张图像 128x1000。所以我在 128 维空间中有 1000 个点。每张图像的点数不同，但为简单起见，我们假设每张图像有 1000 个。我使用 50 个 C1 类图像和 50 个 C2 类图像划分我的数据集进行训练。

如果我使用 100 张训练图像，我将获得 128x100000 的数据。如果我使用例如 400 个集群对这些数据执行 k-means 聚类，这是一个非常漫长的过程。所以我想对这些数据进行采样，例如选择均匀分布的 10000 个点，以便每个图像都被平等地表示。实际上，我在分类过程中得到了很好的结果，但我怀疑这是否可以做到。

如果我使用所有数据点来计算中心，或者我可以对这些数据进行采样以进行计算，会有很大的不同吗？对于要使用的数据部分，什么值是合理的？

【问题讨论】：

尝试正确地格式化您的问题（使用段落、强调和代码突出显示）并对其进行更多解释，以便更好地理解问题。如果可能的话，还要添加一些相关的标签。
感谢您的建议。我是这方面的新手。
您能告诉我们为什么训练时间长是个大问题吗？ K-Means 聚类会产生一定的决策边界（例如，如果您输入图像，它将决定它检测到的是“健康”图像还是“癌变”图像。）训练只进行一次，因此计算量很大时间不应该被证明是一个大问题。在 128 维空间中工作确实会招致“维度诅咒”。其他模式识别算法可能会提供更好的结果。
这是我的想法。对于灰度空间中的每个图像，我使用 DSIFT 在两个尺度上提取了描述符。我对数据做了 3 倍的 CV 并计算了每张图像的直方图。然后将此直方图输入 SVM。这个过程花了我大约 6 个小时。我的下一步是在这个描述符中添加另外三个独立地将 DSIF 应用于 R、G 和 B 通道的描述符。这使得计算时间长达 18 小时。这是一个令人担忧的问题，因为我将在之前的描述符中添加更多描述符。
我的想法是我可以在计算直方图的视觉术语之前对数据进行采样。那是重要的计算时间。或者我可能以错误的方式连接描述符。

标签： image-processing computer-vision cluster-analysis k-means

【解决方案1】：

在样本上运行 k-means 是一种常见的做法首先。

这将为您提供对最终聚类中心的良好估计，并且通过将它们用作完整 k-means 运行的种子，之后您可能只需要一次迭代。

K-means 有许多问题（维度灾难、通常无意义的结果、选择 k），但 可扩展性 不是其中之一。它可以运行得非常快，100k 个对象应该只需要一分钟，除非您使用的是非常慢的编程语言。

【讨论】：

非常感谢您的回答 Anony-Mousse。所以你说的是我可以使用数据样本来估计中心的位置。这将是使用完整数据进行计算时要考虑的初始位置。
我正在使用 vl_feat 库在 MATLAB 中执行我的所有计算。但是添加更多描述符不应该增加太多的计算时间。我应该如何连接描述符？例如，灰度描述符是在两个尺度上提取的，所以我将有 d{1} 和 d{2}。如果我计算其他描述符，比如 d1{1} 和 d1{2}，我应该将数据连接为描述符=[[d{1},d{2}];d1{1},d1{2}]??从而增加特征的数量而不是点的数量。非常感谢。
我不知道灰色描述符是什么，所以我帮不了你。
对不起。没有正确解释我的自我。我的意思是在将 RGB 图像转换为灰色后提取的 SIFT 描述符。对于那个描述符，我必须添加其他描述符。所以我的问题是我应该垂直连接还是水平连接？如果我垂直地做，我会增加特征的数量。如果我水平地做，我会增加点数。你之前说过，k-means 需要不到一分钟的时间，有 100k 点，但我有大约 200k，我需要大约 20 分钟。我使用整数 k 均值，因为数据是整数，并且使用 Elkan 算法来执行计算