【发布时间】:2014-05-06 09:52:49
【问题描述】:
我有一堆包含文章的文件。每篇文章都应该有一些特征,例如:text length、text_spam(都是整数或浮点数,在大多数情况下应该从 csv 加载)。而我想做的是——将这些功能与 CountVectorizer 结合起来,然后对这些文本进行分类。
我看过一些教程,但我仍然不知道如何实现这些东西。找到了一些东西 here,但实际上无法满足我的需要。
有什么想法可以用 scikit 完成吗?
谢谢。
我现在遇到的是:
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.pipeline import FeatureUnion
measurements = [
{'text_length': 1000, 'text_spam': 4.3},
{'text_length': 2000, 'text_spam': 4.1},
]
corpus = [
'some text',
'some text 2 hooray',
]
vectorizer = DictVectorizer()
count_vectorizer = CountVectorizer(min_df=1)
first_x = vectorizer.fit_transform(measurements)
second_x = count_vectorizer.fit_transform(corpus)
combined_features = FeatureUnion([('first', first_x), ('second', second_x)])
对于这堆代码,我不明白如何加载“真实”数据,因为已经加载了训练集。第二个——如何加载类别(拟合函数的y参数)?
【问题讨论】:
标签: python machine-learning scikit-learn