【问题标题】:the difference between TF-IDF and TF in SVM linear kernelSVM线性核中TF-IDF和TF的区别
【发布时间】:2012-09-11 22:50:46
【问题描述】:

因为 IDF 是一个常数。 一维中的所有值都乘以一个常数。

在SVM线性核中,结果会不一样?

【问题讨论】:

  • 你能告诉我svm线性内核中tfidf权重和tf权重的区别吗?

标签: svm document-classification tf-idf


【解决方案1】:

您最初的问题并没有真正的意义。你混淆了两个不同的世界: 1)TF/IDF: features for text representation 2)SVM - Linear Kernel:最简单的 SVM 方法(确实用于文本)。

TF 和 TF/IDF 的区别在于是否使用了词的语料库频率。 TF/IDF 是迄今为止更好的选择,独立于分类器。

仅使用 TF,我们并不真正关心单词是否常见。因此,常见的词如 e.g.即使文章没有提供真实信息,它们也会获得很大的权重。

在 TF/IDF 中,一个词在语料库中出现的频率越高,它获得的权重就越小。因此,像文章这样的常见词获得的权重较小,但假设携带更多信息的稀有词获得更大的权重。

注意在上面,“物品”被用作示例,它们通常应该在预处理步骤中删除。

【讨论】:

  • 你还没有解决这个问题! OP 的意思是,每个单词的 TF 向量和每个单词的 TFIDF 向量之间的差异只是每个属性的线性缩放。如果您随后使用线性回归或线性 SVM 等线性分类器,则缩放不会产生任何影响!
猜你喜欢
  • 2020-09-27
  • 2020-11-08
  • 2014-03-15
  • 1970-01-01
  • 2013-08-16
  • 2015-05-07
  • 2018-09-19
  • 2016-10-13
  • 1970-01-01
相关资源
最近更新 更多