【发布时间】:2020-04-22 19:54:30
【问题描述】:
我想知道哪种算法最适合语义相似性?谁能解释为什么?
谢谢!
【问题讨论】:
标签: python nlp gensim semantics cosine-similarity
我想知道哪种算法最适合语义相似性?谁能解释为什么?
谢谢!
【问题讨论】:
标签: python nlp gensim semantics cosine-similarity
什么的语义相似性 - 单词,短语,句子,段落,文档,其他?以及关于什么最终目标的“最佳”?
定义“Word Mover 的距离”的原始论文“From Word Embeddings To Document Distances”给出了一些 WMD 工作良好的示例,并将其行为与其他相似性计算进行了比较。
但是,WMD 的计算成本要高得多,尤其是在较长的文本上。作为一种使用每个单词存在的方法,无论排序如何,在微小的语法变化(例如在正确的位置添加“not”)可能会完全反转文本对人类读者的含义的情况下,它仍然不够强大. (但话说回来,快速简单的比较,比如两个词袋表示之间的余弦相似度,或两个平均词向量表示之间的余弦相似度,在那里也不强。)
【讨论】: