文本分类，包括预处理

【问题标题】：Text classification, preprocessing included文本分类，包括预处理
【发布时间】：2011-08-03 09:42:26
【问题描述】：

如果时间不是一个因素，并且我们不知道有多少类，那么文档分类的最佳方法是什么？

【问题讨论】：

我们也不知道题目。
我们不知道有多少类是这样聚类然后进行类标注的

标签： cluster-analysis document-classification

【解决方案1】：

交叉链接：请参阅 SO 上的 how-do-i-determine-k-when-using-k-means-clustering。

【讨论】：

谢谢！不过，我已经开始种植索姆了。不过，这将有助于确定起始网格大小。

【解决方案2】：

在我（不完整的）知识中，如果您不知道有多少类，分层凝聚聚类是最好的方法。所有其他聚类算法要么需要先验知识桶的数量，要么需要某种交叉验证或其他实验来确定合理的桶数。

【讨论】：

+1。但是，对于平面聚类，有时建议将 N 个项目的 sqrt(N) 作为聚类数。
用Growing Som算法进行实际聚类，然后使用HAC的自底向上方法怎么样？这样我们也不必猜测集群的数量。
我没有种植 Som 的背景，所以我无法为您提供任何建议。
它只是一个自组织地图，它选择增加平均误差似乎高于阈值的分辨率（集群）。它是平面聚类，但保存了拓扑结构，因此可以通过比较相邻聚类之间的差异来找到层次结构。

猜你喜欢

1970-01-01
2021-01-31
2021-07-09
2018-12-01
1970-01-01
1970-01-01
1970-01-01
2016-03-24

相关资源

下载 2021-06-06
下载 2021-06-05
下载 2021-07-14

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode