weka中的多个特征向量答案

【问题标题】：Multiple feature vectors in wekaweka中的多个特征向量
【发布时间】：2026-01-20 11:20:03
【问题描述】：

我正在使用 Weka 进行文本分类项目，我有 12 节课我需要为每个类找到区分一个类与其他类的文本关键字，所以我正在考虑为每个类独立制作特征向量（FV），并将 12 个（FV）存储在单独的 12 个 arff 文件中！

问题是 --> 如何将 12 个不同的特征向量组合到一个特征向量中？

【问题讨论】：

标签： vector weka

【解决方案1】：

根据类是否重叠，我提出了两种不同的方法，而不是加入特征向量：

如果类不重叠（即，没有文档在两个或更多的类），你宁愿构建一个单一的 ARFF 文件，然后使用AttributeSelection 过滤器（Ranker 搜索，InfoGainAttributeEval 评估员建议）以确定哪个特征在所有类别中最有区别。
如果类重叠，您可以构建 12 个 one-the-rest 分类器，每个分类器都有自己的词汇表。你可以申请属性选择也适用于每个独立问题，找到最能将单个类别与所有其他类别区分开来的功能。

【讨论】：

是的，我有重叠的类，所以你能澄清一下如何将属性选择应用于每个独立的类吗？ “一劳永逸”的分类器是什么意思？
抱歉打错了，我的意思是一对一。首先创建一个具有 12 个二进制属性（每个类）的 ARFF 文件。这样，您就可以拥有像 'my text',0,1,1,... 这样的实例，这意味着文本属于类 2 和 3，例如。然后使用weka.filters.unsupervised.attribute.Remove 生成12 个文件以删除不需要的列。然后将第一个选项（AttributeSelection 等）分别应用于每个文件。但是，在这种情况下，最好使用 MEKA 而不是 WEKA。请参阅：meka.sourceforge.net。
你的意思是 weka.filters.supervised.attribute.NominalToBinary 吗？无论如何，我找到了一种方法，但你能告诉我这是真的还是假的？我通过独立为每个类应用 StringToWordVector 从每个类中选择了最好的 1000 个单词，然后我为每个 12 个文本文件中的属性手动复制和粘贴，所以我有 12 个不同的文本文件 {My new text dataset} 然后每个文本文件我制作 10 个副本并将其存储在文件夹中 {所以我有 12 个类文件夹和 11 个文本} 现在我再次应用 StringToWordVector，我得到了 100% 的准确度！这可以给我好的或坏的分类器模型吗？
也就是说，我可以重复文本数据集以提高准确性吗？
恐怕我根本不明白你做了什么:-(