【发布时间】:2019-01-24 09:48:00
【问题描述】:
我有一个包含 300000 行的数据集,每行是一个文章标题,我想找到这个数据集的 tf 或 tfidf 等特征。
我可以计算这个数据集中的单词(tf),例如:
字频must 10000amazing 9999
或word percentage:must 0.2amazing 0.19
但是如何计算idf,我的意思是我需要找到一些特征来区分这个数据集和其他数据集?或者tfidf如何用于文本分类?
【问题讨论】:
-
您可能有兴趣查看此答案stackoverflow.com/a/54177835/4317058,它提供了有关如何在 python 和 sklearn 中使用
tf-idf的简单分步教程