正常和朴素贝叶斯 - 复制数据，改进分类 [Weka]答案

【问题标题】：Normal and naive Bayes - duplicating data, improves classification [Weka]正常和朴素贝叶斯 - 复制数据，改进分类 [Weka]
【发布时间】：2019-05-04 06:11:55
【问题描述】：

我想检查如果我只操纵数据集的大小，贝叶斯网络的行为会如何。

由于我仍在考虑数据生成器（找不到合适的文章），因此我决定将我拥有的数据进行倍增。我想如果我只复制它，它不会改变分类结果 - 只是模型创建时间。

我对 2 个数据集进行了测试：

data1：70 个实例，8 个属性，是/否分类

data2：768个实例，206个属性，1-6个类型分类

原始集的计算时间结果在 0-0.01 秒之间，所以我不能从中得到太多。有趣的数字是在我将数据相乘之后得出的。

测试方法是10折交叉验证。一切都在 Weka 完成。

格式：

Number_of_instances : model_creation_time : %Correctly_Clasified_instances

数据1，朴素贝叶斯：

768 : 0s : 76.3021%

7680 : 0.01s : 76.2891%

76800 : 0.11s : 76.2708%

768000 : 1.39s : 76.3021%

Data1，正态贝叶斯：

768 : 0.02s : 74.349%

7680 : 0.08s : 85.7943%

76800 : 1.43s : 97.8659%

768000：26.18 秒：97.824%

Data2，朴素贝叶斯：

70 : 0s : 82.8571%

700 : 0s : 92%

7000: 0.02s : 94.2857%

70000 : 0.21 秒 : 94.2857%

Data2，普通贝叶斯：

70 : 0.01s : 82.8571%

700 : 0.01s : 93.2857%

7000 : 0.11s : 94.2857%

70000 : 2.63s : 94.2857%

所有情况下的计算时间都增加了（普通贝叶斯需要更多时间 - 但在具有更多属性的 data2 中，它的增长速度要慢得多）。

正确分类的实例仅在 data1 中的正常贝叶斯中高度提升（8 个属性）。

虽然在 data2（206 个属性）上，两种方法的分类都有很大改进。

数据重复如何帮助分类？我做错了什么还是那些是某种虚假的结果？可以解释吗？

【问题讨论】：

标签： machine-learning weka bayesian-networks

【解决方案1】：

如果样本重复，准确度当然会提高。想想看。你有更多相同的数据，所以分类器会更加努力地训练它

如果你想测试不同的样本计数，你应该删除样本，而不是添加它们

希望能帮到你

美好的一天

【讨论】：

谢谢。 Naive&Normal 贝叶斯效率在 data2 中增加而 Naive 在 data1 中停滞？