【发布时间】:2020-06-13 04:34:32
【问题描述】:
我正在尝试对一组文本进行分类,以用于预测测试文本集中的相似文本。我正在使用 one_class_svm 模型。 “author_corpus”包含由单个作者撰写的文本列表,“test_corpus”包含由其他作者和原作者撰写的文本列表。我正在尝试使用 one_class_svm 来识别测试文本中的作者。
def analyse_corpus(author_corpus, test_corpus):
vectorizer = TfidfVectorizer()
author_vectors = vectorizer.fit_transform(author_corpus)
test_vectors = vectorizer.fit_transform(test_corpus)
model = OneClassSVM(gamma='auto')
model.fit(author_vectors)
test = model.predict(test_vectors)
我收到值错误:
X.shape[1] = 2484 should be equal to 1478, the number of features at training time
在给定训练集中的单一作者的情况下,我如何实现此模型以准确预测测试集中文本的作者身份?任何帮助表示赞赏。
作为参考,这里是 one_class_svm 模型指南的链接:https://scikit-learn.org/stable/modules/generated/sklearn.svm.OneClassSVM.html#sklearn.svm.OneClassSVM
【问题讨论】:
标签: python-3.x machine-learning scikit-learn text-classification one-class-classification