【发布时间】:2018-05-15 02:18:06
【问题描述】:
余弦相似度广泛用于衡量两个向量之间的相似度,其中两个可以是词向量或文档向量。
其他的,如曼哈顿、欧几里得、明可夫斯基等,也很受欢迎。
余弦相似度给出了 0 到 1 之间的数字,所以它看起来像是两个向量之间相似度的百分比。欧几里得给出了一些变化很大的数字。
.
当两个向量之间的余弦相似度为 0.78xxx 时,包括我在内的人可能会期望“这两个向量相似度为 78%!”,这并不是两个向量的实际“相似度”。
.
与余弦相似度不同,minkowski、manhattan、canberra 等甚至给出了一些不在 0 到 1 范围内的大数。
For word1:word2 example
0.78 (cosine, gives between 0 to 1)
9.54 (Euclidean, gives the actual distance between two vectors)
158.417 (Canberra)
.
我希望可能有一些归一化方法被广泛用于表示两个向量之间的实际“相似度”。如果您知道一些,请提供。如果有文章或论文就更好了。
For word1:word2 example
0.848 (cosine, transformed as normalized number)
0.758 (Euclidean, normalized between 0 to 1)
0.798 (Canberra, normalized between 0 to 1)
我不希望你提到softmax数,因为我读过一篇文章,softmax数本身不应该被视为实际百分比。
【问题讨论】:
标签: vector compare similarity word2vec doc2vec