【问题标题】:Multiple feature vectors in wekaweka中的多个特征向量
【发布时间】:2026-01-20 11:20:03
【问题描述】:

我正在使用 Weka 进行文本分类项目,我有 12 节课 我需要为每个类找到区分一个类与其他类的文本关键字, 所以我正在考虑为每个类独立制作特征向量(FV),并将 12 个(FV)存储在单独的 12 个 arff 文件中!

问题是 --> 如何将 12 个不同的特征向量组合到一个特征向量中?

【问题讨论】:

    标签: vector weka


    【解决方案1】:

    根据类是否重叠,我提出了两种不同的方法,而不是加入特征向量:

    • 如果类不重叠(即,没有文档在两个或 更多的类),你宁愿构建一个单一的 ARFF 文件,然后使用AttributeSelection 过滤器(Ranker 搜索,InfoGainAttributeEval 评估员建议)以确定哪个 特征在所有类别中最有区别。

    • 如果类重叠,您可以构建 12 个 one-the-rest 分类器,每个分类器都有自己的词汇表。你可以申请 属性选择也适用于每个独立问题,找到 最能将单个类别与所有其他类别区分开来的功能。

    【讨论】:

    • 是的,我有重叠的类,所以你能澄清一下如何将属性选择应用于每个独立的类吗? “一劳永逸”的分类器是什么意思?
    • 抱歉打错了,我的意思是一对一。首先创建一个具有 12 个二进制属性(每个类)的 ARFF 文件。这样,您就可以拥有像 'my text',0,1,1,... 这样的实例,这意味着文本属于类 2 和 3,例如。然后使用weka.filters.unsupervised.attribute.Remove 生成12 个文件以删除不需要的列。然后将第一个选项(AttributeSelection 等)分别应用于每个文件。但是,在这种情况下,最好使用 MEKA 而不是 WEKA。请参阅:meka.sourceforge.net
    • 你的意思是 weka.filters.supervised.attribute.NominalToBinary 吗?无论如何,我找到了一种方法,但你能告诉我这是真的还是假的?我通过独立为每个类应用 StringToWordVector 从每个类中选择了最好的 1000 个单词,然后我为每个 12 个文本文件中的属性手动复制和粘贴,所以我有 12 个不同的文本文件 {My new text dataset} 然后每个文本文件我制作 10 个副本并将其存储在文件夹中 {所以我有 12 个类文件夹和 11 个文本} 现在我再次应用 StringToWordVector,我得到了 100% 的准确度!这可以给我好的或坏的分类器模型吗?
    • 也就是说,我可以重复文本数据集以提高准确性吗?
    • 恐怕我根本不明白你做了什么:-(
    最近更新 更多