新闻聚类答案

【问题标题】：News clustering新闻聚类
【发布时间】：2010-10-21 12:57:58
【问题描述】：

Google 新闻和 Techmeme 如何对相似的新闻项目进行聚类？是否有任何众所周知的算法可以用来实现这一点？

感谢您的帮助。

提前致谢。

【问题讨论】：

【解决方案1】：

有几种不同的方法可以做到这一点。标准是做“词袋”分析（加权TF-IDF），然后做余弦相似度和k-means。

它的伟大之处在于： 1）它是增量的，这对新闻来说非常有用。使用标准 k-means，您需要拥有整个数据集。对于新闻，您通常会有文章随着时间的推移而到达。增量算法解决了这个问题。 2）它是基于短语的。所以它依赖于短语而不仅仅是单词。

最近，出现了一些使用语义而不是单词的技术（例如，通过从每篇文章中提取 Wikipedia 或 DBPedia 概念，并使用它们而不仅仅是单词）。

【讨论】：

【解决方案2】：

算法基础是凝聚聚类或类似的东西。但除此之外还有许多启发式方法。例如，向量空间肯定由单词和短语（单词 n-gram）组成。将搜索限制在严格的时间段内也非常重要。识别名称，更多地衡量标题和段落标题也是关键部分。

在切线相关的注释上。如果您对查找几乎重复的文章感兴趣，那么有许多更容易实现的方法，例如here 中描述的一种方法

【讨论】：

【解决方案3】：

基于内容对文本进行聚类的一种相当常见的方法是在词向量上使用Principle Component Analysis（一个 n 维向量，其中每个可能的词代表一个维度，每个方向上的大小是数字该词在该特定文章中的出现次数），然后是简单的聚类，例如 K-Means。

【讨论】：

谢谢安迪。感谢你的帮助。从您的回答中研究此主题时，我发现了一些有用的链接。我将它作为评论发布在这里，以便任何对此主题感兴趣的人都可以有一个起点。层次凝聚聚类nlp.stanford.edu/IR-book/html/htmledition/…聚类算法教程home.dei.polimi.it/matteucc/Clustering/tutorial_html/…信息检索简介nlp.stanford.edu/IR-book/html/htmledition/irbook.html
@niraj：感谢提供非常有用的教程链接。