【发布时间】:2019-05-04 06:11:55
【问题描述】:
我想检查如果我只操纵数据集的大小,贝叶斯网络的行为会如何。
由于我仍在考虑数据生成器(找不到合适的文章),因此我决定将我拥有的数据进行倍增。我想如果我只复制它,它不会改变分类结果 - 只是模型创建时间。
我对 2 个数据集进行了测试:
data1:70 个实例,8 个属性,是/否分类
data2:768个实例,206个属性,1-6个类型分类
原始集的计算时间结果在 0-0.01 秒之间,所以我不能从中得到太多。有趣的数字是在我将数据相乘之后得出的。
测试方法是10折交叉验证。 一切都在 Weka 完成。
.
格式:
Number_of_instances : model_creation_time : %Correctly_Clasified_instances
数据1,朴素贝叶斯:
768 : 0s : 76.3021%
7680 : 0.01s : 76.2891%
76800 : 0.11s : 76.2708%
768000 : 1.39s : 76.3021%
Data1,正态贝叶斯:
768 : 0.02s : 74.349%
7680 : 0.08s : 85.7943%
76800 : 1.43s : 97.8659%
768000:26.18 秒:97.824%
Data2,朴素贝叶斯:
70 : 0s : 82.8571%
700 : 0s : 92%
7000: 0.02s : 94.2857%
70000 : 0.21 秒 : 94.2857%
Data2,普通贝叶斯:
70 : 0.01s : 82.8571%
700 : 0.01s : 93.2857%
7000 : 0.11s : 94.2857%
70000 : 2.63s : 94.2857%
所有情况下的计算时间都增加了(普通贝叶斯需要更多时间 - 但在具有更多属性的 data2 中,它的增长速度要慢得多)。
正确分类的实例仅在 data1 中的正常贝叶斯中高度提升(8 个属性)。
虽然在 data2(206 个属性)上,两种方法的分类都有很大改进。
数据重复如何帮助分类?我做错了什么还是那些是某种虚假的结果?可以解释吗?
【问题讨论】:
标签: machine-learning weka bayesian-networks