对未标记的 20ng 数据集进行分类

【问题标题】：classify unlabeled 20ng dataset对未标记的 20ng 数据集进行分类
【发布时间】：2018-06-23 08:38:36
【问题描述】：

我有一个未标记的 20 个没有类别标签的新闻组数据集。这是一个多类文本数据集。但我不知道类标签；我想使用 weka API 对其进行分类。但是 weka 使用类标签对数据集进行分类。链接是20ng dataset

【问题讨论】：

我确实在由 kaypis lab k1a 提供的文本数据集上使用了 cluto gcluster 工具；它创建从 0 到 9 的集群，并为每个集群分配不同的属性。我想知道的是，是否将这些不同的属性组分配为 0-9 位，然后使用 weka api 对它们进行分类。由于我主要关心的是使用 weka 还是有任何替代方法。我提供聚类工具提供的字符串类标签或数字类标签。

标签： java weka data-mining

【解决方案1】：

您可以使用来自carrot2 的“lingo clustering algorithm”从原始数据生成标签。

https://project.carrot2.org/algorithms.html

【讨论】：

猜你喜欢

2019-08-29
2019-06-01
1970-01-01
2014-05-17
1970-01-01
2016-11-30
2012-12-01
2021-05-13
2018-07-26

相关资源

下载 2021-06-24
下载 2021-06-24
下载 2023-01-25
下载 2021-06-05

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode