python、scikits-learn：哪些学习方法支持稀疏特征向量？

【问题标题】：python, scikits-learn: which learning methods support sparse feature vectors?python、scikits-learn：哪些学习方法支持稀疏特征向量？
【发布时间】：2012-05-05 11:10:36
【问题描述】：

我在尝试对包含 30.000 个文本的数据集执行 KernelPCA 时遇到内存错误。 RandomizedPCA 工作正常。我认为正在发生的事情是 RandomizedPCA 与稀疏数组一起使用，而 KernelPCA 则不行。

是否有人列出了当前在 scikits-learn 中使用稀疏数组支持实现的学习方法？

【问题讨论】：

标签： python machine-learning scikits scikit-learn

【解决方案1】：

我们还没有。您现在必须阅读各个类的文档字符串。

无论如何，对于文本文档等高暗淡的稀疏数据，非线性模型并不比线性模型效果更好（而且它们更容易过拟合）。

【讨论】：

旁注：众所周知，对于某些 NLP 任务，二次内核比线性内核工作得更好（尽管可能不是文档级别的工作，其中二元组可能更可取）。
嗯！很高兴知道。我在考虑内核 PCA，因为 RandomizedPCA 为我的数据集提供了非常复杂的可视化，点集中在轴上。我希望能够在二维图中以图形方式可视化我用其他方法获得的集群。 :(
确实，尽管使用线性模型和散列的非局部共现特征可以更有效地模拟 Larsmans 多项式技巧。