【发布时间】:2018-10-06 08:26:03
【问题描述】:
我一直在使用 sklearn 开发一个模型,其中很大一部分利用 CountVectorizer() 函数从训练集中的一组字符串创建一个稀疏矩阵。
例如:
vectorizer = CountVectorizer(max_features=3000)
sparse_matrix = vectorizer.fit_transform(corpus).toarray()
导出模型后,格式化数据的最佳方式是什么?我想创建预测以匹配训练创建的特征名称?我是否也应该导出(通过泡菜?)vectorizer.get_feature_names() 然后使用它?还是有更好的办法?
换句话说,如果在我的训练集vectorizer.get_feature_names() = ['apple', 'dog', 'cat'] 中,我想对'hello cat' 进行预测,那么我对预测请求的特征提取方法应该是什么?如果我错了,请纠正我,但特征提取的结果需要[0, 0, 1] 才能匹配模型。
我也可以在这里完全放弃我的方法,因此感谢您提供任何帮助或建议
谢谢!
【问题讨论】:
标签: python machine-learning scikit-learn