【问题标题】:classify unlabeled 20ng dataset对未标记的 20ng 数据集进行分类
【发布时间】:2018-06-23 08:38:36
【问题描述】:

我有一个未标记的 20 个没有类别标签的新闻组数据集。这是一个多类文本数据集。但我不知道类标签;我想使用 weka API 对其进行分类。但是 weka 使用类标签对数据集进行分类。链接是20ng dataset

【问题讨论】:

  • 我确实在由 kaypis lab k1a 提供的文本数据集上使用了 cluto gcluster 工具;它创建从 0 到 9 的集群,并为每个集群分配不同的属性。我想知道的是,是否将这些不同的属性组分配为 0-9 位,然后使用 weka api 对它们进行分类。由于我主要关心的是使用 weka 还是有任何替代方法。我提供聚类工具提供的字符串类标签或数字类标签。

标签: java weka data-mining


【解决方案1】:

您可以使用来自carrot2 的“lingo clustering algorithm”从原始数据生成标签。

https://project.carrot2.org/algorithms.html

【讨论】:

    猜你喜欢
    • 2019-08-29
    • 2019-06-01
    • 1970-01-01
    • 2014-05-17
    • 1970-01-01
    • 2016-11-30
    • 2012-12-01
    • 2021-05-13
    • 2018-07-26
    相关资源
    最近更新 更多