【发布时间】:2026-01-20 11:20:03
【问题描述】:
我正在使用 Weka 进行文本分类项目,我有 12 节课 我需要为每个类找到区分一个类与其他类的文本关键字, 所以我正在考虑为每个类独立制作特征向量(FV),并将 12 个(FV)存储在单独的 12 个 arff 文件中!
问题是 --> 如何将 12 个不同的特征向量组合到一个特征向量中?
【问题讨论】:
我正在使用 Weka 进行文本分类项目,我有 12 节课 我需要为每个类找到区分一个类与其他类的文本关键字, 所以我正在考虑为每个类独立制作特征向量(FV),并将 12 个(FV)存储在单独的 12 个 arff 文件中!
问题是 --> 如何将 12 个不同的特征向量组合到一个特征向量中?
【问题讨论】:
根据类是否重叠,我提出了两种不同的方法,而不是加入特征向量:
如果类不重叠(即,没有文档在两个或
更多的类),你宁愿构建一个单一的 ARFF
文件,然后使用AttributeSelection 过滤器(Ranker
搜索,InfoGainAttributeEval 评估员建议)以确定哪个
特征在所有类别中最有区别。
如果类重叠,您可以构建 12 个 one-the-rest 分类器,每个分类器都有自己的词汇表。你可以申请 属性选择也适用于每个独立问题,找到 最能将单个类别与所有其他类别区分开来的功能。
【讨论】:
'my text',0,1,1,... 这样的实例,这意味着文本属于类 2 和 3,例如。然后使用weka.filters.unsupervised.attribute.Remove 生成12 个文件以删除不需要的列。然后将第一个选项(AttributeSelection 等)分别应用于每个文件。但是,在这种情况下,最好使用 MEKA 而不是 WEKA。请参阅:meka.sourceforge.net。