【问题标题】:How to use tfidf in text classification?如何在文本分类中使用 tfidf?
【发布时间】:2019-01-24 09:48:00
【问题描述】:

我有一个包含 300000 行的数据集,每行是一个文章标题,我想找到这个数据集的 tftfidf 等特征。 我可以计算这个数据集中的单词(tf),例如:
字频
must 10000
amazing 9999

word percentage:
must 0.2
amazing 0.19

但是如何计算idf,我的意思是我需要找到一些特征来区分这个数据集和其他数据集?或者tfidf如何用于文本分类?

【问题讨论】:

标签: nlp tf-idf


【解决方案1】:

在您的情况下,文档是单个文章标题。因此,逆文档频率 (IDF) 为log(300000/num(t))。其中num(t) 是包含术语t 的文档(文章标题)的数量。

https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Inverse_document_frequency_2

【讨论】:

    猜你喜欢
    • 2016-10-02
    • 1970-01-01
    • 2020-06-03
    • 2015-04-20
    • 2017-08-27
    • 2017-04-20
    • 2017-03-03
    • 2012-05-08
    • 2018-05-16
    相关资源
    最近更新 更多