【发布时间】:2011-08-03 09:42:26
【问题描述】:
如果时间不是一个因素,并且我们不知道有多少类,那么文档分类的最佳方法是什么?
【问题讨论】:
-
我们也不知道题目。
-
我们不知道有多少类是这样聚类然后进行类标注的
标签: cluster-analysis document-classification
如果时间不是一个因素,并且我们不知道有多少类,那么文档分类的最佳方法是什么?
【问题讨论】:
标签: cluster-analysis document-classification
交叉链接:请参阅 SO 上的 how-do-i-determine-k-when-using-k-means-clustering。
【讨论】:
在我(不完整的)知识中,如果您不知道有多少类,分层凝聚聚类是最好的方法。所有其他聚类算法要么需要先验知识桶的数量,要么需要某种交叉验证或其他实验来确定合理的桶数。
【讨论】: