【发布时间】:2014-11-23 22:52:40
【问题描述】:
我正在尝试比较不同的文档。如何在表示同义词时克服冲突,这个例子会给出不同的向量。虽然它们具有相同的含义。
text1, text2= "I like birds", "I admire birds"
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(stop_words='english')
tfidf = vectorizer.fit_transform([text1, text2])
注意:我发现有些论文引用了Latent Semantic analysis,NLTK 支持吗?
【问题讨论】: