【问题标题】:Normal and naive Bayes - duplicating data, improves classification [Weka]正常和朴素贝叶斯 - 复制数据,改进分类 [Weka]
【发布时间】:2019-05-04 06:11:55
【问题描述】:

我想检查如果我只操纵数据集的大小,贝叶斯网络的行为会如何。

由于我仍在考虑数据生成器(找不到合适的文章),因此我决定将我拥有的数据进行倍增。我想如果我只复制它,它不会改变分类结果 - 只是模型创建时间。

我对 2 个数据集进行了测试:

data1:70 个实例,8 个属性,是/否分类

data2:768个实例,206个属性,1-6个类型分类

原始集的计算时间结果在 0-0.01 秒之间,所以我不能从中得到太多。有趣的数字是在我将数据相乘之后得出的。

测试方法是10折交叉验证。 一切都在 Weka 完成。

.

格式:

Number_of_instances : model_creation_time : %Correctly_Clasified_instances


数据1,朴素贝叶斯:

768 : 0s : 76.3021%

7680 : 0.01s : 76.2891%

76800 : 0.11s : 76.2708%

768000 : 1.39s : 76.3021%


Data1,正态贝叶斯:

768 : 0.02s : 74.349%

7680 : 0.08s : 85.7943%

76800 : 1.43s : 97.8659%

768000:26.18 秒:97.824%


Data2,朴素贝叶斯:

70 : 0s : 82.8571%

700 : 0s : 92%

7000: 0.02s : 94.2857%

70000 : 0.21 秒 : 94.2857%


Data2,普通贝叶斯:

70 : 0.01s : 82.8571%

700 : 0.01s : 93.2857%

7000 : 0.11s : 94.2857%

70000 : 2.63s : 94.2857%


所有情况下的计算时间都增加了(普通贝叶斯需要更多时间 - 但在具有更多属性的 data2 中,它的增长速度要慢得多)。

正确分类的实例仅在 data1 中的正常贝叶斯中高度提升(8 个属性)。

虽然在 data2(206 个属性)上,两种方法的分类都有很大改进。

数据重复如何帮助分类?我做错了什么还是那些是某种虚假的结果?可以解释吗?

【问题讨论】:

    标签: machine-learning weka bayesian-networks


    【解决方案1】:

    如果样本重复,准确度当然会提高。想想看。你有更多相同的数据,所以分类器会更加努力地训练它

    如果你想测试不同的样本计数,你应该删除样本,而不是添加它们

    希望能帮到你

    美好的一天

    【讨论】:

    • 谢谢。 Naive&Normal 贝叶斯效率在 data2 中增加而 Naive 在 data1 中停滞?
    猜你喜欢
    • 2013-08-07
    • 2015-08-27
    • 2012-08-17
    • 2012-07-02
    • 2017-01-10
    • 2013-04-18
    • 2013-02-13
    • 2016-02-05
    相关资源
    最近更新 更多