【发布时间】:2012-01-08 22:48:00
【问题描述】:
能否请您告诉我如何在 weka 中表示属性或类以进行文本分类。通过使用什么属性可以进行分类?词频还是词? ARFF 格式的可能结构是什么?你能给我几行该结构的例子吗?
非常感谢您。
【问题讨论】:
标签: java machine-learning classification weka arff
能否请您告诉我如何在 weka 中表示属性或类以进行文本分类。通过使用什么属性可以进行分类?词频还是词? ARFF 格式的可能结构是什么?你能给我几行该结构的例子吗?
非常感谢您。
【问题讨论】:
标签: java machine-learning classification weka arff
在 weka 中,您可以选择自己的属性。在此示例中,我们只有 2 个类,并且所有唯一词都用作属性。如果您选择词频作为属性,则如果该词在文本中出现两次,则分配“2”,否则分配“0”,如果该词仅出现一次,则分配“1”。
这是 .arff 格式的示例。
@RELATION anyrelation
@ATTRIBUTE word1
@ATTRIBUTE word2
...
@ATTRIBUTE wordn
@ATTRIBUTE class {class1, class2}
@DATA
1,2,....,0,class1
0,3,....,1,class2
【讨论】:
最简单的替代方法之一是从 ARFF 文件开始解决两类问题,例如:
@relation 语料库 @attribute 文本字符串 @attribute 类 {pos,neg} @数据 '带有单词的长文本...',pos文本表示为 String 类型,类是具有两个值的名词。
然后你可以应用两个过滤器:
您可以在这个 Weka wiki 页面中找到更多信息和其他方法来转换您的数据: http://weka.wikispaces.com/Text+categorization+with+WEKA
【讨论】: