【发布时间】:2016-09-26 13:28:40
【问题描述】:
我在网上搜索了有关在文档长度非常不同的情况下标准化 tf 等级的信息 (例如,文档长度从 500 字到 2500 字不等)
我发现的唯一规范化是关于在文档长度中划分词频,因此导致文档长度没有任何意义。
这种方法虽然对于标准化 tf.如果有的话,它会导致每个文档的 tf 等级有一个非常大的偏差(除非所有文档都是从几乎相同的字典构建的,使用 tf-idf 时不是这种情况)
例如,让我们获取 2 个文档 - 一个包含 100 个唯一单词,另一个包含 1000 个唯一单词。 doc1 中的每个单词的 tf 为 0.01,而 doc2 中的每个单词的 tf 为 0.001
这会导致 tf-idf 等级在匹配 doc1 的单词时自动大于 doc2
有没有人建议更合适的归一化公式?
谢谢
编辑 我还看到了一种方法,说明我们应该将词频除以每个文档的文档的最大词频 这也解决不了我的问题
我的想法是从所有文档中计算最大词频,然后通过将每个词频除以最大值来归一化所有词
很想知道你的想法
【问题讨论】:
标签: python normalization tf-idf textblob