【发布时间】:2020-07-30 03:39:46
【问题描述】:
我一直在处理一个业务问题,我需要找到新文档与现有文档的相似之处。 我使用了以下各种方法
1.词袋+余弦相似度
2.TFIDF + 余弦相似度
3.Word2Vec + 余弦相似度
它们都没有按预期工作。 但最后我找到了一种效果更好的方法 Word2vec + 软余弦 相似度
但新的挑战是我最终得到了具有相同相似度分数的多个文档。 它们中的大多数是相关的,但即使有一些语义相似的词它们是不同的,它们中的少数也是不同的
请建议如何解决这个问题
【问题讨论】:
-
你能分享一个大约10个句子的样本吗?如果这个样本中有一些句子的相似度得分可以接受,也有一些句子不可接受,那么可以更好地调查这个问题。
-
您可以尝试sentence-transformers嵌入+余弦相似度作为替代方案。
-
@SidharthMacherla 由于安全政策,我无法分享该信息,但我尝试模仿场景...我有 n 个具有不同标签或分类的历史文档(登录问题、错误消息等)我只想找到新文档与现有文档的相似性。现在假设我得到一个文档,例如“以前我无法连接,但现在我收到错误消息”,因为关键词“无法连接”和“错误消息”它为两个类文档提供了相同的相似性分数尽管它是一个错误消息,但确实是真实的文档..我希望我在模仿方面已经尽力了。
-
@arpitrathi 感谢您的建议将尝试这个
标签: nlp