单词/句子相似度。最好的方法是什么？答案

【问题标题】：Word/Sentence similarity. What is the best approach?单词/句子相似度。最好的方法是什么？
【发布时间】：2019-12-08 11:53:50
【问题描述】：

我需要为产品主数据建立一个算法，但我不确定最好的 NLP 方法。场景是： - 我有产品金唱片； - 我还有很多其他产品目录需要统一；例子： - 产品金唱片：可乐和零可乐； - 需要调和的产品描述：可乐300ml、零可乐300ml、零可乐。

我需要一种通过相似性来协调的算法，因为我必须考虑拼写错误，有时还要考虑句子中的某个产品。例子：可乐零 JS MKT（JS和MKT都是垃圾，但句子和可乐零比较相似）。

我一直在测试一些 NLP 的句子相似度，例如 Bag of words 以及阅读其他一些方法，例如 Cosine Similarity 和 Levenshtein distance。但是，我不知道什么是适合我的情况的最佳选择。

能否请您帮助我了解实现我需要的最佳方式？

【问题讨论】：

标签： python nlp

【解决方案1】：

通过使用余弦相似度和 Levenshtein 距离，我找到了两个很好的解决方案。就我而言，余弦相似度效果更好，因为我很容易在文本中找到品牌名称的一部分，因此获得了 100% 的准确率。矩阵替换（Levenshtein）也不错，但由于数据集中的单词非常相似，我很好地处理了一些错误。

【讨论】：