【发布时间】:2021-08-17 21:34:43
【问题描述】:
我正在编写一个返回两个文档之间余弦相似度的方法。使用 sklearn CountVectorizer() 我试过了
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
def doc_cos_similar(doc1:str, doc2:str) -> float:
vectorizer= CountVectorizer()
doc1="Good morning"
doc2="Good evening"
documents = [doc1, doc2]
count_vectorizer = CountVectorizer()
sparse_matrix = count_vectorizer.fit_transform(documents)
doc_term_matrix = sparse_matrix.todense()
return doc_term_matrix
#输入
doc1="Good morning"
doc2="Good afternoon"
输出应该是 0.60(类似的)
但是输出是一个
矩阵([[0, 1, 1], [1, 1, 0]])
【问题讨论】:
标签: python-3.x nlp cosine-similarity countvectorizer