词频和 IDF - 澄清答案

【问题标题】：Term Frequency and IDF - Clarification词频和 IDF - 澄清
【发布时间】：2017-02-19 19:58:47
【问题描述】：

基于链接https://en.wikipedia.org/wiki/Tf%E2%80%93idf，IDF用于否定文档中常用词的权重（如“the”、“of”等）

如果我在提取特征之前应用停用词删除，应该应用 IDF 吗？我觉得只有词频就足够了，因为重复的不重要的词已经被过滤掉了。

请注意

【问题讨论】：

您的问题是关于如何在 spark 中实现它？如果是，请提供有关数据格式的更多详细信息。如果你感兴趣的是理论讨论，你应该在stats.stackexchange.com
取决于你的目标是什么。 IDF 奖励稀有词，因此如果两个文档共享一个稀有词，则比共享一个共同词更重要。
我已经在 Spark 中实现了这个。我担心的是，如果 IDF 转换是为了减少常用词的权重（例如：the、of 等），那么我可能不必这样做，因为我的文本已经使用 Stop Words Removal 进行了过滤。
感谢 mtoto - 我认为这提供了更好的视角

【解决方案1】：

即使您使用停用词删除，IDF 在大多数情况下仍然有用。

我个人尽量避免删除停用词：它取决于语言，列表的内容是任意的，您可能会删除有用的词。去除停用词就像使用 IDF 并说：从这个分界点开始，上面的一切都很好，下面的一切都是无用的（没有“中间”区域！），这显然不能反映语言的真实本质。

但是回答您的问题的最佳方法是试验这两种方法：如果您在文本分类或信息检索过程的上下文中使用 TF-IDF，为什么不尝试使用和不使用 IDF 进行测试，看看哪一种产生最佳精度？

【讨论】：

是的 - 这正是我所做的。跳过 IDF 后我得到了更好的准确性。我只做停用词删除和词频。
在某些情况下可能会发生这种情况，尤其是在文本分类中。请参阅我对这个问题的回答：stackoverflow.com/questions/39152229/… 如果您需要潜在的解释