【发布时间】:2017-08-27 02:23:19
【问题描述】:
我正在尝试一项文本分类任务,我有大约 500 条餐厅评论的训练数据,这些评论被标记为 12 个类别。我花了比我应该的时间更长的时间来实现 TF.IDF 和余弦相似度来对测试数据进行分类,结果却得到了一些非常糟糕的结果(0.4 F-measure)。现在时间不在我身边,我需要实施一些更有效的东西,而且没有陡峭的学习曲线。我正在考虑将 TF.IDF 值与朴素贝叶斯结合使用。这听起来合理吗?我知道如果我能以正确的格式获取数据,我可以使用 Scikit learn 来做到这一点。你还有什么建议我考虑的吗?
谢谢。
【问题讨论】:
-
使用每个类别的 TF.IDF 值向量,使用训练数据,我将如何训练分类器?
标签: python machine-learning scikit-learn nlp