【发布时间】:2018-04-26 12:08:08
【问题描述】:
我需要使用词袋(在本例中为特征袋)来生成描述符向量来对KTH video dataset 进行分类。为此,我需要使用 kmeans 聚类算法对提取的特征进行聚类并找到码本。从数据集中提取的特征形成大约 75000 个向量,每个向量包含 100 个元素。所以我在 Ubuntu 中使用 scipy.cluster.kmeans2 实现时遇到了内存问题。我进行了一些测试,发现使用 32000 个向量,每个向量包含 100 个元素,使用的内存量约为 20GB(我的总内存为 32GB)。
还有其他 Python kmeans 实现更节省内存吗? 我已经读过Mahout 用于聚类大数据,但我仍然不明白他的优势是什么,用上面提到的数据量是否更节省内存?
【问题讨论】: