TFIDF 与 Word2Vec答案

【问题标题】：TFIDF vs Word2VecTFIDF 与 Word2Vec
【发布时间】：2019-08-23 21:33:33
【问题描述】：

我正在尝试查找两个文档之间的相似度分数（包含大约 15000 条记录）。

我在 python 中使用了两种方法： 1. TFIDF (Scikit learn) 2. Word2Vec (gensim, google pre-trained vectors)

示例1

Doc1- 点击“账单”标签

Doc2- 点击“CHAPS”标签

第一种方法给出 0.9 分。第二种方法给1分

示例2

Doc1- 请参阅以下要求：

Doc2- 请参阅以下要求

第一种方法得 1 分。第二种方法给出 0.98 分

谁能告诉我：

为什么在 Example1 Word2Vec 中给出 1，尽管它们非常不同

在示例 2 中 Word2Vec 给出 0.98，尽管它们的差异只有“：”

【问题讨论】：

【解决方案1】：

在示例一中，word2vec 的词袋中可能没有 Bills 和 CHAPS 这两个词。话虽如此，取出这些词句子是一样的*。

在示例 2 中，可能在 word2vec 算法的标记化中，它将“requirements:”作为一个标记，将“requirements”作为一个不同的标记，这就是为什么它们的向量有点不同，所以它们并不完全一样一样的。

*Word2vec 通过取其词向量的平均值来计算句子向量。如果 word2vec 的词袋中没有一个词，它将有 vector=[0,0,...0]。

【讨论】：