【问题标题】:Term Frequency and IDF - Clarification词频和 IDF - 澄清
【发布时间】:2017-02-19 19:58:47
【问题描述】:

基于链接https://en.wikipedia.org/wiki/Tf%E2%80%93idf,IDF用于否定文档中常用词的权重(如“the”、“of”等)

如果我在提取特征之前应用停用词删除,应该应用 IDF 吗?我觉得只有词频就足够了,因为重复的不重要的词已经被过滤掉了。

请注意

【问题讨论】:

  • 您的问题是关于如何在 spark 中实现它?如果是,请提供有关数据格式的更多详细信息。如果你感兴趣的是理论讨论,你应该在stats.stackexchange.com
  • 取决于你的目标是什么。 IDF 奖励稀有词,因此如果两个文档共享一个稀有词,则比共享一个共同词更重要。
  • 我已经在 Spark 中实现了这个。我担心的是,如果 IDF 转换是为了减少常用词的权重(例如:the、of 等),那么我可能不必这样做,因为我的文本已经使用 Stop Words Removal 进行了过滤。
  • 感谢 mtoto - 我认为这提供了更好的视角

标签: apache-spark tf-idf naivebayes


【解决方案1】:

即使您使用停用词删除,IDF 在大多数情况下仍然有用。

我个人尽量避免删除停用词:它取决于语言,列表的内容是任意的,您可能会删除有用的词。去除停用词就像使用 IDF 并说:从这个分界点开始,上面的一切都很好,下面的一切都是无用的(没有“中间”区域!),这显然不能反映语言的真实本质。

但是回答您的问题的最佳方法是试验这两种方法:如果您在文本分类或信息检索过程的上下文中使用 TF-IDF,为什么不尝试使用和不使用 IDF 进行测试,看看哪一种产生最佳精度?

【讨论】:

  • 是的 - 这正是我所做的。跳过 IDF 后我得到了更好的准确性。我只做停用词删除和词频。
  • 在某些情况下可能会发生这种情况,尤其是在文本分类中。请参阅我对这个问题的回答:stackoverflow.com/questions/39152229/… 如果您需要潜在的解释
猜你喜欢
  • 1970-01-01
  • 2020-06-08
  • 2013-12-06
  • 1970-01-01
  • 1970-01-01
  • 2013-01-03
  • 1970-01-01
  • 1970-01-01
  • 2019-11-15
相关资源
最近更新 更多