【发布时间】:2018-06-23 08:38:36
【问题描述】:
我有一个未标记的 20 个没有类别标签的新闻组数据集。这是一个多类文本数据集。但我不知道类标签;我想使用 weka API 对其进行分类。但是 weka 使用类标签对数据集进行分类。链接是20ng dataset
【问题讨论】:
-
我确实在由 kaypis lab k1a 提供的文本数据集上使用了 cluto gcluster 工具;它创建从 0 到 9 的集群,并为每个集群分配不同的属性。我想知道的是,是否将这些不同的属性组分配为 0-9 位,然后使用 weka api 对它们进行分类。由于我主要关心的是使用 weka 还是有任何替代方法。我提供聚类工具提供的字符串类标签或数字类标签。
标签: java weka data-mining