相同的测试集答案

【问题标题】：Identical Test set相同的测试集
【发布时间】：2013-08-24 02:34:18
【问题描述】：

我有一些 cmets，我想将它们分类为正面或负面。到目前为止，我有一个带注释的数据集。

问题是前 100 行被归类为正数，其余 100 行被归类为负数。

我正在使用 SQL Server Analysis-2008 R2。 Class 属性有 2 个值，POS-表示正数，NEG-表示负数。

我还使用最大输入/输出属性=0（想使用所有属性）的朴素贝叶斯算法进行分类，测试集最大案例设置为 30%。提升图表的当前分数是 0.60。

为了获得更好的分类准确度，我是否必须将它们混合在一起，例如 2 个 POS 后跟 1 个 NEG？

【问题讨论】：

【解决方案1】：

学习实例的顺序不应影响分类性能。朴素贝叶斯计算的概率对于数据集中实例的任何排序都是相同的。

但是，不同测试集和训练集的选择会影响分类性能。例如，某些实例可能天生就比其他实例更难分类。

您的训练和测试表现是否同样糟糕？如果你的训练表现比你的测试表现好和/或好得多，你的模型可能是过拟合的。否则，如果您的训练表现也很差，我建议（a）尝试更好/更强/更具表现力的分类器，例如 SVM、决策树等；和/或 (b) 确保您的特征对数据具有足够的代表性/表现力。

【讨论】：

我让算法自动选择能够更好地代表数据的特征，我得到了 0.77 的分数，我认为你拥有的属性越多越好。
更多属性并不总是更好。当然，如果属性过多会使问题更难解决（例如，更大的搜索空间），尤其是如果一些属性不是很有用，但属性太少可能无法充分代表数据，则需要权衡取舍。