【问题标题】:Text classification, preprocessing included文本分类,包括预处理
【发布时间】:2011-08-03 09:42:26
【问题描述】:

如果时间不是一个因素,并且我们不知道有多少类,那么文档分类的最佳方法是什么?

【问题讨论】:

  • 我们也不知道题目。
  • 我们不知道有多少类是这样聚类然后进行类标注的

标签: cluster-analysis document-classification


【解决方案1】:

交叉链接:请参阅 SO 上的 how-do-i-determine-k-when-using-k-means-clustering

【讨论】:

  • 谢谢!不过,我已经开始种植索姆了。不过,这将有助于确定起始网格大小。
【解决方案2】:

在我(不完整的)知识中,如果您不知道有多少类,分层凝聚聚类是最好的方法。所有其他聚类算法要么需要先验知识桶的数量,要么需要某种交叉验证或其他实验来确定合理的桶数。

【讨论】:

  • +1。但是,对于平面聚类,有时建议将 N 个项目的 sqrt(N) 作为聚类数。
  • 用Growing Som算法进行实际聚类,然后使用HAC的自底向上方法怎么样?这样我们也不必猜测集群的数量。
  • 我没有种植 Som 的背景,所以我无法为您提供任何建议。
  • 它只是一个自组织地图,它选择增加平均误差似乎高于阈值的分辨率(集群)。它是平面聚类,但保存了拓扑结构,因此可以通过比较相邻聚类之间的差异来找到层次结构。
猜你喜欢
  • 1970-01-01
  • 2021-01-31
  • 2021-07-09
  • 2018-12-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2016-03-24
相关资源
最近更新 更多