【发布时间】:2013-04-12 08:02:58
【问题描述】:
我在运行 scikit 的 dbscan 算法时出现内存错误。 我的数据大约是20000*10000,是一个二进制矩阵。
(可能DBSCAN不适合用这样的矩阵,我是机器学习的初学者,只想找一个不需要初始簇号的簇方法)
反正我发现scikit的稀疏矩阵和特征提取。
http://scikit-learn.org/dev/modules/feature_extraction.html http://docs.scipy.org/doc/scipy/reference/sparse.html
但我仍然不知道如何使用它。在 DBSCAN 的规范中,没有关于使用稀疏矩阵的指示。不允许吗?
如果有人知道如何在 DBSCAN 中使用稀疏矩阵,请告诉我。 或者你可以告诉我一个更合适的集群方法。
【问题讨论】:
标签: machine-learning scikit-learn cluster-analysis data-mining dbscan