【发布时间】:2019-08-23 21:33:33
【问题描述】:
我正在尝试查找两个文档之间的相似度分数(包含大约 15000 条记录)。
我在 python 中使用了两种方法: 1. TFIDF (Scikit learn) 2. Word2Vec (gensim, google pre-trained vectors)
示例1
Doc1- 点击“账单”标签
Doc2- 点击“CHAPS”标签
第一种方法给出 0.9 分。 第二种方法给1分
示例2
Doc1- 请参阅以下要求:
Doc2- 请参阅以下要求
第一种方法得 1 分。 第二种方法给出 0.98 分
谁能告诉我:
为什么在 Example1 Word2Vec 中给出 1,尽管它们非常不同
在示例 2 中 Word2Vec 给出 0.98,尽管它们的差异只有“:”
【问题讨论】:
标签: python machine-learning data-science word2vec tf-idf