【问题标题】:Word/Sentence similarity. What is the best approach?单词/句子相似度。最好的方法是什么?
【发布时间】:2019-12-08 11:53:50
【问题描述】:

我需要为产品主数据建立一个算法,但我不确定最好的 NLP 方法。场景是: - 我有产品金唱片; - 我还有很多其他产品目录需要统一; 例子: - 产品金唱片:可乐和零可乐; - 需要调和的产品描述:可乐300ml、零可乐300ml、零可乐。

我需要一种通过相似性来协调的算法,因为我必须考虑拼写错误,有时还要考虑句子中的某个产品。例子:可乐零 JS MKT(JS和MKT都是垃圾,但句子和可乐零比较相似)。

我一直在测试一些 NLP 的句子相似度,例如 Bag of words 以及阅读其他一些方法,例如 Cosine Similarity 和 Levenshtein distance。但是,我不知道什么是适合我的情况的最佳选择。

能否请您帮助我了解实现我需要的最佳方式?

【问题讨论】:

    标签: python nlp


    【解决方案1】:

    通过使用余弦相似度和 Levenshtein 距离,我找到了两个很好的解决方案。就我而言,余弦相似度效果更好,因为我很容易在文本中找到品牌名称的一部分,因此获得了 100% 的准确率。矩阵替换(Levenshtein)也不错,但由于数据集中的单词非常相似,我很好地处理了一些错误。

    【讨论】:

      猜你喜欢
      • 2015-03-25
      • 2016-07-09
      • 2011-09-29
      • 2020-03-03
      • 2011-09-28
      • 2015-01-31
      • 2015-12-29
      • 1970-01-01
      • 2014-08-30
      相关资源
      最近更新 更多