使用 NLTK 比较两个同义词

【问题标题】：Comparing two synonyms using NLTK使用 NLTK 比较两个同义词
【发布时间】：2014-11-23 22:52:40
【问题描述】：

我正在尝试比较不同的文档。如何在表示同义词时克服冲突，这个例子会给出不同的向量。虽然它们具有相同的含义。

text1, text2= "I like birds", "I admire birds"
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(stop_words='english')
tfidf = vectorizer.fit_transform([text1, text2])

注意：我发现有些论文引用了Latent Semantic analysis，NLTK 支持吗？

【问题讨论】：

标签： python nltk

【解决方案1】：

LSA 是解决同义词问题的好方法，但是 NLTK 没有实现这一点。不过，如果你有研究论文，它应该很容易实施。

另一种方法是利用 WordNet。来自他们的介绍（http://wordnet.princeton.edu/）：

WordNet® 是一个大型的英语词汇数据库。名词、动词、形容词和副词被分组为一组认知同义词（同义词），每个同义词表达一个不同的概念。

NLTK 已经为您实现了这一点 (http://www.nltk.org/howto/wordnet.html)。我会把确切的实现细节留给你。祝你好运！

【讨论】：