【发布时间】:2017-03-15 05:24:48
【问题描述】:
我有一堆 14784 个文本文档,我正在尝试对其进行矢量化,以便进行一些分析。我在 sklearn 中使用了CountVectorizer,将文档转换为特征向量。我通过调用来做到这一点:
vectorizer = CountVectorizer
features = vectorizer.fit_transform(examples)
其中示例是所有文本文档的数组
现在,我正在尝试使用其他功能。为此,我将特征存储在 pandas 数据框中。目前,我的熊猫数据框(不插入文本特征)的形状为(14784, 5)。我的特征向量的形状是(14784, 21343)。
将矢量化特征插入熊猫数据框的好方法是什么?
【问题讨论】:
标签: python pandas machine-learning scikit-learn