【发布时间】:2013-10-31 18:33:05
【问题描述】:
我正在尝试使用 scikit-learn 对自然语言数据进行一些机器学习。我已经将我的语料库转换为词袋向量(采用稀疏 CSR 矩阵的形式),我想知道 sklearn 中是否有监督降维算法能够获取高维、监督数据并进行投影它进入一个较低维度的空间,该空间保留了这些类之间的差异。
高级问题描述是我有一个文档集合,每个文档上都可以有多个标签,我想根据文档的内容预测哪些标签会被贴在新文档上文件。
本质上,这是一个使用 BoW 向量的稀疏表示的有监督、多标签、多类问题。 sklearn 中是否有可以处理此类数据的降维技术?人们在 scikit-learn 中使用有监督的 BoW 数据时是否使用过其他类型的技术?
谢谢!
【问题讨论】:
-
使用自动编码器是一种减少暗淡的好方法。不过,我不确定 scikit-learn 是否有一个。自编码器只是一个神经网络,其中输出是输入的尝试重建,隐藏层(通常)的维数低于输入。这样,输入被强制通过低维表示,该表示必须至少足以重建输入。因此可以使用隐藏层作为输入的压缩表示。请参阅:cs.toronto.edu/~hinton/science.pdf 另外,theano 和 pylearn2 非常适合神经网络。
-
有人在做自动编码器,但还没完成。
标签: python machine-learning scikit-learn dimensionality-reduction