【问题标题】:Where to get pre-labeled news articles to proceed clustering algorithm从哪里获得预先标记的新闻文章以进行聚类算法
【发布时间】:2019-08-30 09:54:53
【问题描述】:

我即将构建一个系统,该系统可以根据相关事件对在线新闻数据进行聚类。为了检查结果是否正确,我需要一个带有主题标签的大型新闻数据集。我几乎不可能手动标记它们。那么任何人都可以分享一些建议,我如何才能掌握这种类型的数据集?非常感谢您的帮助。

【问题讨论】:

    标签: text nlp cluster-analysis


    【解决方案1】:

    20 Newsgroups 是一个标准数据集,从新闻聚类、分类等开始。您可以将其用于您的实验。来自描述:

    20 个新闻组数据集是大约 20,000 个新闻组文档的集合,它们(几乎)均匀地分布在 20 个不同的新闻组中。据我所知,它最初是由 Ken Lang 收集的,可能是为了他的 Newsweeder: Learning to filter netnews paper,尽管他没有明确提到这个集合。 20 个新闻组集合已成为机器学习技术文本应用实验的流行数据集,例如文本分类和文本聚类。

    【讨论】:

    • 非常感谢,我以前下载过这个数据集。但我不能使用这个数据集的原因是我需要应用基于事件的聚类,这要求数据集必须由他们描述的核心事件预先标记。如果有的话,我可以实现那种非常有用的新闻数据形式。
    猜你喜欢
    • 2011-01-22
    • 2011-04-06
    • 2014-10-03
    • 2018-09-13
    • 2014-05-09
    • 2013-09-01
    • 1970-01-01
    • 2020-09-28
    • 1970-01-01
    相关资源
    最近更新 更多