SVM线性核中TF-IDF和TF的区别答案

【问题标题】：the difference between TF-IDF and TF in SVM linear kernelSVM线性核中TF-IDF和TF的区别
【发布时间】：2012-09-11 22:50:46
【问题描述】：

因为 IDF 是一个常数。一维中的所有值都乘以一个常数。

在SVM线性核中，结果会不一样？

【问题讨论】：

【解决方案1】：

您最初的问题并没有真正的意义。你混淆了两个不同的世界： 1)TF/IDF: features for text representation 2）SVM - Linear Kernel：最简单的 SVM 方法（确实用于文本）。

TF 和 TF/IDF 的区别在于是否使用了词的语料库频率。 TF/IDF 是迄今为止更好的选择，独立于分类器。

仅使用 TF，我们并不真正关心单词是否常见。因此，常见的词如 e.g.即使文章没有提供真实信息，它们也会获得很大的权重。

在 TF/IDF 中，一个词在语料库中出现的频率越高，它获得的权重就越小。因此，像文章这样的常见词获得的权重较小，但假设携带更多信息的稀有词获得更大的权重。

注意在上面，“物品”被用作示例，它们通常应该在预处理步骤中删除。

【讨论】：

你还没有解决这个问题！ OP 的意思是，每个单词的 TF 向量和每个单词的 TFIDF 向量之间的差异只是每个属性的线性缩放。如果您随后使用线性回归或线性 SVM 等线性分类器，则缩放不会产生任何影响！