如何在文本分类中使用 tfidf？答案

【问题标题】：How to use tfidf in text classification?如何在文本分类中使用 tfidf？
【发布时间】：2019-01-24 09:48:00
【问题描述】：

我有一个包含 300000 行的数据集，每行是一个文章标题，我想找到这个数据集的 tf 或 tfidf 等特征。我可以计算这个数据集中的单词（tf），例如：
字频
must 10000
amazing 9999

或word percentage:
must 0.2
amazing 0.19

但是如何计算idf，我的意思是我需要找到一些特征来区分这个数据集和其他数据集？或者tfidf如何用于文本分类？

【问题讨论】：

您可能有兴趣查看此答案stackoverflow.com/a/54177835/4317058，它提供了有关如何在 python 和 sklearn 中使用 tf-idf 的简单分步教程

标签： nlp tf-idf

【解决方案1】：

在您的情况下，文档是单个文章标题。因此，逆文档频率 (IDF) 为log(300000/num(t))。其中num(t) 是包含术语t 的文档（文章标题）的数量。

【讨论】：