【发布时间】:2019-12-08 11:53:50
【问题描述】:
我需要为产品主数据建立一个算法,但我不确定最好的 NLP 方法。场景是: - 我有产品金唱片; - 我还有很多其他产品目录需要统一; 例子: - 产品金唱片:可乐和零可乐; - 需要调和的产品描述:可乐300ml、零可乐300ml、零可乐。
我需要一种通过相似性来协调的算法,因为我必须考虑拼写错误,有时还要考虑句子中的某个产品。例子:可乐零 JS MKT(JS和MKT都是垃圾,但句子和可乐零比较相似)。
我一直在测试一些 NLP 的句子相似度,例如 Bag of words 以及阅读其他一些方法,例如 Cosine Similarity 和 Levenshtein distance。但是,我不知道什么是适合我的情况的最佳选择。
能否请您帮助我了解实现我需要的最佳方式?
【问题讨论】: