Word Mover 的距离与余弦相似度答案

【问题标题】：Word Mover's Distance vs Cosine SimilarityWord Mover 的距离与余弦相似度
【发布时间】：2020-04-22 19:54:30
【问题描述】：

我想知道哪种算法最适合语义相似性？谁能解释为什么？

谢谢！

【问题讨论】：

标签： python nlp gensim semantics cosine-similarity

【解决方案1】：

什么的语义相似性 - 单词，短语，句子，段落，文档，其他？以及关于什么最终目标的“最佳”？

定义“Word Mover 的距离”的原始论文“From Word Embeddings To Document Distances”给出了一些 WMD 工作良好的示例，并将其行为与其他相似性计算进行了比较。

但是，WMD 的计算成本要高得多，尤其是在较长的文本上。作为一种使用每个单词存在的方法，无论排序如何，在微小的语法变化（例如在正确的位置添加“not”）可能会完全反转文本对人类读者的含义的情况下，它仍然不够强大. （但话说回来，快速简单的比较，比如两个词袋表示之间的余弦相似度，或两个平均词向量表示之间的余弦相似度，在那里也不强。）

【讨论】：