【发布时间】:2014-02-19 15:33:07
【问题描述】:
我想根据语义相似性对单词进行聚类。目前我有一个文档列表,其中包含检测到的名词短语。我想对文档中这些获得的名词进行聚类,并在语义上无监督地聚类它们?
我查看了 wordnet 和 gensim 库。有什么建议可以真正帮助根据语义相似性获得所需的词组?
【问题讨论】:
标签: python cluster-analysis semantics wordnet gensim
我想根据语义相似性对单词进行聚类。目前我有一个文档列表,其中包含检测到的名词短语。我想对文档中这些获得的名词进行聚类,并在语义上无监督地聚类它们?
我查看了 wordnet 和 gensim 库。有什么建议可以真正帮助根据语义相似性获得所需的词组?
【问题讨论】:
标签: python cluster-analysis semantics wordnet gensim
对于基于短语共现的相似性(在文档中出现得更频繁的短语会更相似),您可以使用 gensim。
查看潜在语义分析和潜在狄利克雷分配:http://radimrehurek.com/gensim/tut2.html#available-transformations
根据您希望集群做什么,您可以直接将 LSI/LDA 主题用作集群。或者对得到的潜在短语向量等进行聚类。
【讨论】: