【发布时间】:2019-09-04 17:38:29
【问题描述】:
我的目标是输入 3 个查询并找出哪个查询与一组 5 个文档最相似。
到目前为止,我已经计算了文档的tf-idf,执行以下操作:
from sklearn.feature_extraction.text import TfidfVectorizer
def get_term_frequency_inverse_data_frequency(documents):
allDocs = []
for document in documents:
allDocs.append(nlp.clean_tf_idf_text(document))
vectorizer = TfidfVectorizer()
matrix = vectorizer.fit_transform(allDocs)
return matrix
def get_tf_idf_query_similarity(documents, query):
tfidf = get_term_frequency_inverse_data_frequency(documents)
我现在遇到的问题是我有tf-idf 的文档,我对查询执行什么操作,以便找到与文档的余弦相似度?
【问题讨论】:
标签: python scikit-learn tf-idf cosine-similarity