【问题标题】:Identical Test set相同的测试集
【发布时间】:2013-08-24 02:34:18
【问题描述】:

我有一些 cmets,我想将它们分类为正面或负面。 到目前为止,我有一个带注释的数据集。

问题是前 100 行被归类为正数,其余 100 行被归类为负数。

我正在使用 SQL Server Analysis-2008 R2。 Class 属性有 2 个值,POS-表示正数,NEG-表示负数。

我还使用最大输入/输出属性=0(想使用所有属性)的朴素贝叶斯算法进行分类,测试集最大案例设置为 30%。提升图表的当前分数是 0.60。

为了获得更好的分类准确度,我是否必须将它们混合在一起,例如 2 个 POS 后跟 1 个 NEG?

【问题讨论】:

    标签: testing dataset ssas classification bayesian


    【解决方案1】:

    学习实例的顺序不应影响分类性能。朴素贝叶斯计算的概率对于数据集中实例的任何排序都是相同的。

    但是,不同测试集和训练集的选择会影响分类性能。例如,某些实例可能天生就比其他实例更难分类。

    您的训练和测试表现是否同样糟糕?如果你的训练表现比你的测试表现好和/或好得多,你的模型可能是过拟合的。否则,如果您的训练表现也很差,我建议(a)尝试更好/更强/更具表现力的分类器,例如 SVM、决策树等;和/或 (b) 确保您的特征对数据具有足够的代表性/表现力。

    【讨论】:

    • 我让算法自动选择能够更好地代表数据的特征,我得到了 0.77 的分数,我认为你拥有的属性越多越好。
    • 更多属性并不总是更好。当然,如果属性过多会使问题更难解决(例如,更大的搜索空间),尤其是如果一些属性不是很有用,但属性太少可能无法充分代表数据,则需要权衡取舍。
    猜你喜欢
    • 2013-03-04
    • 2017-11-10
    • 1970-01-01
    • 2017-11-03
    • 1970-01-01
    • 1970-01-01
    • 2016-03-12
    • 1970-01-01
    • 2013-07-20
    相关资源
    最近更新 更多