【发布时间】:2012-09-11 22:50:46
【问题描述】:
因为 IDF 是一个常数。 一维中的所有值都乘以一个常数。
在SVM线性核中,结果会不一样?
【问题讨论】:
-
你能告诉我svm线性内核中tfidf权重和tf权重的区别吗?
标签: svm document-classification tf-idf
因为 IDF 是一个常数。 一维中的所有值都乘以一个常数。
在SVM线性核中,结果会不一样?
【问题讨论】:
标签: svm document-classification tf-idf
您最初的问题并没有真正的意义。你混淆了两个不同的世界: 1)TF/IDF: features for text representation 2)SVM - Linear Kernel:最简单的 SVM 方法(确实用于文本)。
TF 和 TF/IDF 的区别在于是否使用了词的语料库频率。 TF/IDF 是迄今为止更好的选择,独立于分类器。
仅使用 TF,我们并不真正关心单词是否常见。因此,常见的词如 e.g.即使文章没有提供真实信息,它们也会获得很大的权重。
在 TF/IDF 中,一个词在语料库中出现的频率越高,它获得的权重就越小。因此,像文章这样的常见词获得的权重较小,但假设携带更多信息的稀有词获得更大的权重。
注意在上面,“物品”被用作示例,它们通常应该在预处理步骤中删除。
【讨论】: