【发布时间】:2011-04-06 10:32:19
【问题描述】:
我正在研究如何将文章归类为“新闻故事”(例如 Google 新闻)。
查看此处有关该主题的先前问题,我经常看到建议从文章中简单地提取单词向量,如果某些单词位于文章的某些部分(例如标题),则加重它们的权重,然后使用类似 k-means 的算法对文章进行聚类。
但这会引出几个问题:
使用 k-means,您如何提前知道 k 应该是多少?在动态新闻环境中,您可能拥有非常多变的故事,并且您不会事先知道一组文章代表了多少故事。
使用层次聚类算法,您如何决定将哪些聚类用作您的故事?您将在树的底部有一个集群,这些集群只是您显然不想使用的单个文章,而在树的根部有一个集群,其中包含所有文章,您又不想使用它...但是您怎么知道应该使用中间的哪些集群来表示故事?
最后,无论是 k-means 还是分层算法,我读过的大多数文献似乎都假设您有一个要聚类的预设文档集合,并且它会一次将它们全部聚类。但是,如果您每隔一段时间就会有新文章出现,那又如何呢?发生什么了?您是否必须从头开始对所有文章进行聚类,现在又多了一篇?这就是为什么我想知道是否有一些方法可以让您随时“添加”文章而无需从头开始重新聚类。我无法想象这是非常有效的。
【问题讨论】:
标签: cluster-analysis