【发布时间】:2011-05-22 05:59:48
【问题描述】:
我尝试了 RSAR,一个免费的软件包,但我想知道是否还有其他好的属性缩减器。即使是 R 或 MATLAB 的包,任何能够让我找到对数据进行分类的最小属性集的资源。
例如,有一组包含数百个邮件示例和描述它们并分类为垃圾邮件或非垃圾邮件的不同属性的集合,我想找到描述所有数据的最小属性集,以丢弃无用的信息。
【问题讨论】:
标签: math classification
我尝试了 RSAR,一个免费的软件包,但我想知道是否还有其他好的属性缩减器。即使是 R 或 MATLAB 的包,任何能够让我找到对数据进行分类的最小属性集的资源。
例如,有一组包含数百个邮件示例和描述它们并分类为垃圾邮件或非垃圾邮件的不同属性的集合,我想找到描述所有数据的最小属性集,以丢弃无用的信息。
【问题讨论】:
标签: math classification
您可以使用 R 语言的 RoughSets 包。参见 R 中 FS.one.reduct.computation 的描述(安装 RoughSets 包后)
例如:HIRING2Matrix 是一个具有多个属性的决策表。 reduce1 是减少的属性集
reduct1
【讨论】:
考虑到您描述的问题类型,即:为电子邮件分类选择正确的属性,最好的方法可能是使用 Weka (Weka home)。它有几种特征选择算法,既可以交互应用以可视化它们的效果,也可以与各种分类算法结合使用,以评估它们对实际分类的影响。 (请注意,在没有对特定分类器进行适当验证的情况下选择分类属性可能会导致现实生活中的结果不太理想)。
一些相关链接:
【讨论】: