【发布时间】:2012-02-15 21:30:05
【问题描述】:
我有一个 svmlight 格式的大型(100K x 30K)和(非常)稀疏数据集,我按如下方式加载:
import numpy as np
from scipy.cluster.vq import kmeans2
from scipy.spatial.distance import pdist, squareform
from sklearn.datasets import load_svmlight_file
X,Y = load_svmlight_file("somefile_svm.txt")
返回一个稀疏的 scipy 数组 X
我只需要将所有训练点的成对距离计算为
D = pdist(X)
不幸的是,scipy.spatial.distance 中的距离计算实现仅适用于密集矩阵。由于数据集的大小,使用 pdist 作为
是不可行的D = pdist(X.todense())
任何指向稀疏矩阵距离计算实现或解决此问题的方法的指针将不胜感激。
非常感谢
【问题讨论】:
标签: python machine-learning scikits scikit-learn