【问题标题】:Word Mover's Distance vs Cosine SimilarityWord Mover 的距离与余弦相似度
【发布时间】:2020-04-22 19:54:30
【问题描述】:

我想知道哪种算法最适合语义相似性?谁能解释为什么?

谢谢!

【问题讨论】:

    标签: python nlp gensim semantics cosine-similarity


    【解决方案1】:

    什么的语义相似性 - 单词,短语,句子,段落,文档,其他?以及关于什么最终目标的“最佳”?

    定义“Word Mover 的距离”的原始论文“From Word Embeddings To Document Distances”给出了一些 WMD 工作良好的示例,并将其行为与其他相似性计算进行了比较。

    但是,WMD 的计算成本要高得多,尤其是在较长的文本上。作为一种使用每个单词存在的方法,无论排序如何,在微小的语法变化(例如在正确的位置添加“not”)可能会完全反转文本对人类读者的含义的情况下,它仍然不够强大. (但话说回来,快速简单的比较,比如两个词袋表示之间的余弦相似度,或两个平均词向量表示之间的余弦相似度,在那里也不强。)

    【讨论】:

      猜你喜欢
      • 2017-12-12
      • 2010-10-31
      • 2015-05-31
      • 2020-02-11
      • 2014-02-25
      • 2020-08-12
      • 2013-02-27
      • 2019-02-13
      • 2016-01-01
      相关资源
      最近更新 更多