在语义上对文档中的词进行无监督聚类

【问题标题】：Unsupervised Clustering of Words in a document semantically在语义上对文档中的词进行无监督聚类
【发布时间】：2014-02-19 15:33:07
【问题描述】：

我想根据语义相似性对单词进行聚类。目前我有一个文档列表，其中包含检测到的名词短语。我想对文档中这些获得的名词进行聚类，并在语义上无监督地聚类它们？

我查看了 wordnet 和 gensim 库。有什么建议可以真正帮助根据语义相似性获得所需的词组？

【问题讨论】：

标签： python cluster-analysis semantics wordnet gensim

【解决方案1】：

对于基于短语共现的相似性（在文档中出现得更频繁的短语会更相似），您可以使用 gensim。

查看潜在语义分析和潜在狄利克雷分配：http://radimrehurek.com/gensim/tut2.html#available-transformations

根据您希望集群做什么，您可以直接将 LSI/LDA 主题用作集群。或者对得到的潜在短语向量等进行聚类。

【讨论】：

我使用 Gensim 来获取主题...我有大约 12 周的文档，它们之间有很多技术术语。在获得语义簇时，位于簇中的词有很多重叠，即相似词出现在获得的簇中。如何获得不重叠的语义簇？

猜你喜欢

2014-08-06
2015-03-17
2012-05-14
2019-10-22
2014-07-05
2020-07-21
2017-05-01
2012-04-25
2014-06-13

相关资源

下载 2023-01-11
下载 2023-01-31
下载 2021-06-07
下载 2023-01-31

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode