【问题标题】:TFIDF vs Word2VecTFIDF 与 Word2Vec
【发布时间】:2019-08-23 21:33:33
【问题描述】:

我正在尝试查找两个文档之间的相似度分数(包含大约 15000 条记录)。

我在 python 中使用了两种方法: 1. TFIDF (Scikit learn) 2. Word2Vec (gensim, google pre-trained vectors)

示例1

Doc1- 点​​击“账单”标签

Doc2- 点击“CHAPS”标签

第一种方法给出 0.9 分。 第二种方法给1分

示例2

Doc1- 请参阅以下要求:

Doc2- 请参阅以下要求

第一种方法得 1 分。 第二种方法给出 0.98 分

谁能告诉我:

为什么在 Example1 Word2Vec 中给出 1,尽管它们非常不同

在示例 2 中 Word2Vec 给出 0.98,尽管它们的差异只有“:”

【问题讨论】:

    标签: python machine-learning data-science word2vec tf-idf


    【解决方案1】:

    在示例一中,word2vec 的词袋中可能没有 Bills 和 CHAPS 这两个词。话虽如此,取出这些词句子是一样的*。

    在示例 2 中,可能在 word2vec 算法的标记化中,它将“requirements:”作为一个标记,将“requirements”作为一个不同的标记,这就是为什么它们的向量有点不同,所以它们并不完全一样一样的。

    *Word2vec 通过取其词向量的平均值来计算句子向量。如果 word2vec 的词袋中没有一个词,它将有 vector=[0,0,...0]。

    【讨论】:

      猜你喜欢
      • 2017-04-20
      • 2016-07-31
      • 2017-06-13
      • 2017-12-18
      • 2020-06-15
      • 2017-03-27
      • 2013-10-30
      • 2019-07-11
      • 2023-03-09
      相关资源
      最近更新 更多