【发布时间】:2013-12-25 08:21:08
【问题描述】:
在 CountVectorizer 变为 (40,845 X 218,904) (unigram) 之后,我遇到了只有 2 个类和我的训练数据集矩阵大小的文档分类问题。在考虑三元组的情况下,它可以达到(40845 X 3,931,789)。有没有办法在这样的数据集上执行 PCA 而不会出现内存或稀疏数据集错误。我在 6GB 机器上使用 python sklearn。
【问题讨论】:
标签: python-2.7 machine-learning scikit-learn