【发布时间】:2016-03-08 06:41:16
【问题描述】:
我正在 python 中进行文本分类,我想在生产环境中使用它来预测新文档。我正在使用 TfidfVectorizer 来构建 bagofWord。
我在做:
X_train = vectorizer.fit_transform(clean_documents_for_train, classLabel).toarray()
然后我正在使用 SVM 进行交叉验证并构建模型。之后我将保存模型。
为了对我的测试数据进行预测,我在 另一个脚本 中加载了该模型,其中我有相同的 TfidfVectorizer 并且我知道我不能对我的测试数据执行 fit_transform。我必须做的:
X_test = vectorizer.transform(clean_test_documents, classLabel).toarray()
但这是不可能的,因为我必须先适应。我知道有办法。我可以加载我的训练数据并像在构建模型期间那样执行fit_transform,但是我的训练数据非常大,每次我想预测时我都做不到。所以我的问题是:
- 有没有一种方法可以在我的测试数据上使用 TfidfVectorizer 并执行预测?
- 还有其他方法可以执行预测吗?
【问题讨论】:
标签: python-2.7 scikit-learn nltk prediction