【问题标题】:Weka StringToWordVector attributes omittedWeka StringToWordVector 属性省略
【发布时间】:2019-02-06 13:48:54
【问题描述】:

我正在与 Weka 合作。我的问题是,使用 StringToWordVector 后省略了一些属性。所以这是我的代码:

这是使用任何过滤器之前的 ARFF 文件:

@relation QueryResult

@attribute class {Qualität,Bord,Kite,Harness}
@attribute text {evo,foil,end,fin,edg}

@data
Qualität,evo
Bord,foil
Kite,end
Harness,fin
Qualität,edg 

这是我的java代码:

 Instances train = new Instances(loadInstancesForWeka("root","",sqlCommand));
 train.setClassIndex(train.numAttributes() - 2);
 System.out.println(train);

 NominalToString filter1 = new NominalToString();
 filter1.setInputFormat(train);
 train = Filter.useFilter(train, filter1);
 System.out.println("\nSelect nach NominaltoString \n"+train); 

 //filter
 StringToWordVector filter = new StringToWordVector(); 
 filter.setInputFormat(train);
 train = Filter.useFilter(train, filter);

使用 Vector 后是这样的:

@relation 'QueryResult-weka.filters.unsupervised.attribute.NominalToString-Clast-weka.filters.unsupervised.attribute.StringToWordVector-R2-W1000-prune-rate-1.0-N0-stemmerweka.core.stemmers.NullStemmer-stopwords-handlerweka.core.stopwords.Null-M1-tokenizerweka.core.tokenizers.WordTokenizer -delimiters \" \\r\\n\\t.,;:\\\'\\\"()?!\"'

@attribute class {Qualität,Bord,Kite,Harness}
@attribute edg numeric
@attribute evo numeric
@attribute foil numeric
@attribute end numeric
@attribute fin numeric

@data
{2 1}
{0 Bord,3 1}
{0 Kite,4 1}
{0 Harness,5 1}
{1 1} 

那么为什么省略了“foil,end,fin”属性呢?感谢您的帮助。

【问题讨论】:

标签: weka


【解决方案1】:

您的输出中没有遗漏任何属性。输出在sparse ARFF format:

稀疏 ARFF 文件与 ARFF 文件非常相似,但数据具有值 0 没有明确表示。 ...

每个实例都被包围 花括号,每个条目的格式为:
[index] [space] [value] 其中index 是属性索引(从 0 开始)。

所以对于您示例中的第三个实例,

{0 Kite,4 1}

表示此实例的属性0为Kite,属性4(即'end')为1,其他属性为0

StringToWordVector 产生稀疏输出是有意义的,因为它创建了许多新属性,其中每个实例的大多数属性都为 0。如果您需要非稀疏版本,您可以使用weka.filters.unsupervised.instance.SparseToNonSparse

【讨论】:

  • 谢谢你帮了我很多。我有另一个问题。我希望将数据分类(如上面的“Qualität,...”):但我也希望预测它们是正面/负面/中性。我必须再次进行分类还是有什么特殊的方法?
猜你喜欢
  • 2019-09-05
  • 2012-09-18
  • 2014-06-01
  • 2013-10-31
  • 1970-01-01
  • 1970-01-01
  • 2012-04-30
  • 2013-04-14
  • 2012-06-24
相关资源
最近更新 更多