【发布时间】:2021-07-21 12:52:05
【问题描述】:
从我读到的内容来看,这两个距离测量似乎是 NLP 中最常见的。我目前正在使用余弦相似度(与 gensim.fasttext 距离测量一样)。有什么理由可以代替使用 Jaccard 吗?它甚至可以仅使用单个单词作为输入(我想使用 ngrams)吗?
ft = fasttext.load_model('cc.en.300.bin')
distance = scipy.spatial.distance.cosine(ft['word1'], ft['word2'])
【问题讨论】:
-
Jaccard 应用于项目集,因此不确定如何将其应用于 2 个词向量(每个词向量具有固定的 n 个维度)。您能否更具体地说明您正在考虑的内容 - 例如,显示应用于某些数据的计算的代码?
-
当然,我已经添加了我现在使用的东西。要使用 Jaccard,我需要使用 n-gram(我使用的模型长度为 5)。我只是不确定这是否有意义,或者余弦距离是否最适合这种情况
标签: nlp distance trigonometry similarity fasttext