【发布时间】:2019-10-14 23:22:29
【问题描述】:
通常当我只使用CountVectorizer 时,我可以拥有我可以将其用作CountVectorizer 的新对象的参数以在预测之前处理新数据
cv = CountVectorizer()
X = cv.fit_transform(corpus).toarray()
cv_dict = cv.vocabulary_
test_cv = CountVectorizer(vocabulary = cv_dict)
test_X= test_cv.fit_transform(test_corpus).toarray()
我想知道如何使用管道做同样的事情? 我写这段代码开始
text_features = dataset['corpus']
text_transformer = Pipeline(
steps=[
('count', CountVectorizer()),
]
)
preprocessor = ColumnTransformer(
transformers=[
('text', text_transformer, text_features[0])
]
)
【问题讨论】:
标签: python scikit-learn pipeline countvectorizer