【问题标题】:python, scikits-learn: which learning methods support sparse feature vectors?python、scikits-learn:哪些学习方法支持稀疏特征向量?
【发布时间】:2012-05-05 11:10:36
【问题描述】:

我在尝试对包含 30.000 个文本的数据集执行 KernelPCA 时遇到内存错误。 RandomizedPCA 工作正常。我认为正在发生的事情是 RandomizedPCA 与稀疏数组一起使用,而 KernelPCA 则不行。

是否有人列出了当前在 scikits-learn 中使用稀疏数组支持实现的学习方法?

【问题讨论】:

    标签: python machine-learning scikits scikit-learn


    【解决方案1】:

    我们还没有。您现在必须阅读各个类的文档字符串。

    无论如何,对于文本文档等高暗淡的稀疏数据,非线性模型并不比线性模型效果更好(而且它们更容易过拟合)。

    【讨论】:

    • 旁注:众所周知,对于某些 NLP 任务,二次内核比线性内核工作得更好(尽管可能不是文档级别的工作,其中二元组可能更可取)。
    • 嗯!很高兴知道。我在考虑内核 PCA,因为 RandomizedPCA 为我的数据集提供了非常复杂的可视化,点集中在轴上。我希望能够在二维图中以图形方式可视化我用其他方法获得的集群。 :(
    • 确实,尽管使用线性模型和散列的非局部共现特征可以更有效地模拟 Larsmans 多项式技巧。
    猜你喜欢
    • 1970-01-01
    • 2011-05-17
    • 1970-01-01
    • 2023-01-16
    • 2017-10-21
    • 2012-03-27
    • 1970-01-01
    • 2014-10-30
    • 2013-09-25
    相关资源
    最近更新 更多