【问题标题】:Performing k means clustering with a sample of the data [closed]执行 k 意味着对数据样本进行聚类[关闭]
【发布时间】:2013-06-04 19:40:07
【问题描述】:

我是一名医学物理硕士生,目前正在撰写我的论文。这项工作包括从内窥镜图像中提取特征并使用 SVM 进行分类。我有 4 种类型的图像。类型 1 是非癌症图像,类型 2、3 和 4 是癌前图像。我将问题简化为两级系统。 C1 类,类型 1 图像和 C2 类所有其他图像。

我使用的方法如下: 我使用密集的 SIFT 从每个图像中提取特征。所以我获得了描述符,比如每张图像 128x1000。所以我在 128 维空间中有 1000 个点。每张图像的点数不同,但为简单起见,我们假设每张图像有 1000 个。我使用 50 个 C1 类图像和 50 个 C2 类图像划分我的数据集进行训练。

如果我使用 100 张训练图像,我将获得 128x100000 的数据。如果我使用例如 400 个集群对这些数据执行 k-means 聚类,这是一个非常漫长的过程。所以我想对这些数据进行采样,例如选择均匀分布的 10000 个点,以便每个图像都被平等地表示。实际上,我在分类过程中得到了很好的结果,但我怀疑这是否可以做到。

如果我使用所有数据点来计算中心,或者我可以对这些数据进行采样以进行计算,会有很大的不同吗?对于要使用的数据部分,什么值是合理的?

【问题讨论】:

  • 尝试正确地格式化您的问题(使用段落、强调和代码突出显示)并对其进行更多解释,以便更好地理解问题。如果可能的话,还要添加一些相关的标签。
  • 感谢您的建议。我是这方面的新手。
  • 您能告诉我们为什么训练时间长是个大问题吗? K-Means 聚类会产生一定的决策边界(例如,如果您输入图像,它将决定它检测到的是“健康”图像还是“癌变”图像。)训练只进行一次,因此计算量很大时间不应该被证明是一个大问题。在 128 维空间中工作确实会招致“维度诅咒”。其他模式识别算法可能会提供更好的结果。
  • 这是我的想法。对于灰度空间中的每个图像,我使用 DSIFT 在两个尺度上提取了描述符。我对数据做了 3 倍的 CV 并计算了每张图像的直方图。然后将此直方图输入 SVM。这个过程花了我大约 6 个小时。我的下一步是在这个描述符中添加另外三个独立地将 DSIF 应用于 R、G 和 B 通道的描述符。这使得计算时间长达 18 小时。这是一个令人担忧的问题,因为我将在之前的描述符中添加更多描述符。
  • 我的想法是我可以在计算直方图的视觉术语之前对数据进行采样。那是重要的计算时间。或者我可能以错误的方式连接描述符。

标签: image-processing computer-vision cluster-analysis k-means


【解决方案1】:

在样本上运行 k-means 是一种常见的做法首先

这将为您提供对最终聚类中心的良好估计,并且通过将它们用作完整 k-means 运行的种子,之后您可能只需要一次迭代。

K-means 有许多问题(维度灾难、通常无意义的结果、选择 k),但 可扩展性 不是其中之一。它可以运行得非常快,100k 个对象应该只需要一分钟,除非您使用的是非常慢的编程语言。

【讨论】:

  • 非常感谢您的回答 Anony-Mousse。所以你说的是我可以使用数据样本来估计中心的位置。这将是使用完整数据进行计算时要考虑的初始位置。
  • 我正在使用 vl_feat 库在 MATLAB 中执行我的所有计算。但是添加更多描述符不应该增加太多的计算时间。我应该如何连接描述符?例如,灰度描述符是在两个尺度上提取的,所以我将有 d{1} 和 d{2}。如果我计算其他描述符,比如 d1{1} 和 d1{2},我应该将数据连接为描述符=[[d{1},d{2}];d1{1},d1{2}]??从而增加特征的数量而不是点的数量。非常感谢。
  • 我不知道灰色描述符是什么,所以我帮不了你。
  • 对不起。没有正确解释我的自我。我的意思是在将 RGB 图像转换为灰色后提取的 SIFT 描述符。对于那个描述符,我必须添加其他描述符。所以我的问题是我应该垂直连接还是水平连接?如果我垂直地做,我会增加特征的数量。如果我水平地做,我会增加点数。你之前说过,k-means 需要不到一分钟的时间,有 100k 点,但我有大约 200k,我需要大约 20 分钟。我使用整数 k 均值,因为数据是整数,并且使用 Elkan 算法来执行计算
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2017-08-28
  • 2018-11-28
  • 2018-01-22
  • 2014-07-23
  • 2020-04-20
  • 2015-09-18
  • 2021-02-14
相关资源
最近更新 更多