【问题标题】:News clustering新闻聚类
【发布时间】:2010-10-21 12:57:58
【问题描述】:

Google 新闻和 Techmeme 如何对相似的新闻项目进行聚类?是否有任何众所周知的算法可以用来实现这一点?

感谢您的帮助。

提前致谢。

【问题讨论】:

    标签: algorithm cluster-analysis


    【解决方案1】:

    有几种不同的方法可以做到这一点。标准是做“词袋”分析(加权TF-IDF),然后做余弦相似度和k-means。

    我在这篇论文上取得了成功:http://ieeexplore.ieee.org/xpl/articleDetails.jsp?reload=true&arnumber=4289851

    它的伟大之处在于: 1)它是增量的,这对新闻来说非常有用。使用标准 k-means,您需要拥有整个数据集。对于新闻,您通常会有文章随着时间的推移而到达。增量算法解决了这个问题。 2)它是基于短语的。所以它依赖于短语而不仅仅是单词。

    最近,出现了一些使用语义而不是单词的技术(例如,通过从每篇文章中提取 Wikipedia 或 DBPedia 概念,并使用它们而不仅仅是单词)。

    【讨论】:

      【解决方案2】:

      算法基础是凝聚聚类或类似的东西。但除此之外还有许多启发式方法。例如,向量空间肯定由单词和短语(单词 n-gram)组成。将搜索限制在严格的时间段内也非常重要。识别名称,更多地衡量标题和段落标题也是关键部分。

      在切线相关的注释上。如果您对查找几乎重复的文章感兴趣,那么有许多更容易实现的方法,例如here 中描述的一种方法

      【讨论】:

        【解决方案3】:

        基于内容对文本进行聚类的一种相当常见的方法是在词向量上使用Principle Component Analysis(一个 n 维向量,其中每个可能的词代表一个维度,每个方向上的大小是数字该词在该特定文章中的出现次数),然后是简单的聚类,例如 K-Means。

        【讨论】:

        猜你喜欢
        • 2014-10-03
        • 2018-09-13
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2012-04-08
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多