【发布时间】:2013-02-16 20:50:55
【问题描述】:
从Python: tf-idf-cosine: to find document similarity 开始,可以使用 tf-idf cosine 计算文档相似度。在不导入外部库的情况下,是否有任何方法可以计算 2 个字符串之间的余弦相似度?
s1 = "This is a foo bar sentence ."
s2 = "This sentence is similar to a foo bar sentence ."
s3 = "What is this string ? Totally not related to the other two lines ."
cosine_sim(s1, s2) # Should give high cosine similarity
cosine_sim(s1, s3) # Shouldn't give high cosine similarity value
cosine_sim(s2, s3) # Shouldn't give high cosine similarity value
【问题讨论】:
-
我没有答案,但如果你想要有意义的结果,像 word2vec (code.google.com/p/word2vec) 这样的东西可能是一个好的开始。
-
@static_rtti word2vec 与余弦相似度无关。那是关于嵌入的。在这里,他给出了他想要计算余弦相似度的两个字符串。
-
如果有人在寻找语义相似度,gensim 会很有帮助。
标签: python string nlp similarity cosine-similarity