【发布时间】:2017-02-19 19:58:47
【问题描述】:
基于链接https://en.wikipedia.org/wiki/Tf%E2%80%93idf,IDF用于否定文档中常用词的权重(如“the”、“of”等)
如果我在提取特征之前应用停用词删除,应该应用 IDF 吗?我觉得只有词频就足够了,因为重复的不重要的词已经被过滤掉了。
请注意
【问题讨论】:
-
您的问题是关于如何在 spark 中实现它?如果是,请提供有关数据格式的更多详细信息。如果你感兴趣的是理论讨论,你应该在stats.stackexchange.com
-
取决于你的目标是什么。
IDF奖励稀有词,因此如果两个文档共享一个稀有词,则比共享一个共同词更重要。 -
我已经在 Spark 中实现了这个。我担心的是,如果 IDF 转换是为了减少常用词的权重(例如:the、of 等),那么我可能不必这样做,因为我的文本已经使用 Stop Words Removal 进行了过滤。
-
感谢 mtoto - 我认为这提供了更好的视角
标签: apache-spark tf-idf naivebayes