【发布时间】:2019-08-30 09:54:53
【问题描述】:
我即将构建一个系统,该系统可以根据相关事件对在线新闻数据进行聚类。为了检查结果是否正确,我需要一个带有主题标签的大型新闻数据集。我几乎不可能手动标记它们。那么任何人都可以分享一些建议,我如何才能掌握这种类型的数据集?非常感谢您的帮助。
【问题讨论】:
标签: text nlp cluster-analysis
我即将构建一个系统,该系统可以根据相关事件对在线新闻数据进行聚类。为了检查结果是否正确,我需要一个带有主题标签的大型新闻数据集。我几乎不可能手动标记它们。那么任何人都可以分享一些建议,我如何才能掌握这种类型的数据集?非常感谢您的帮助。
【问题讨论】:
标签: text nlp cluster-analysis
20 Newsgroups 是一个标准数据集,从新闻聚类、分类等开始。您可以将其用于您的实验。来自描述:
20 个新闻组数据集是大约 20,000 个新闻组文档的集合,它们(几乎)均匀地分布在 20 个不同的新闻组中。据我所知,它最初是由 Ken Lang 收集的,可能是为了他的 Newsweeder: Learning to filter netnews paper,尽管他没有明确提到这个集合。 20 个新闻组集合已成为机器学习技术文本应用实验的流行数据集,例如文本分类和文本聚类。
【讨论】: