【发布时间】:2014-11-18 07:26:09
【问题描述】:
我只用了几个星期的 Weka,但我被它的伟大所震撼!
但我有一个问题,我有一个数据集,其目标列是真或假。
我的数据集中有 6709 个实例为真
25318 个实例为 False。
我想随机添加我的 True 实例的副本以生成具有 25318 True 和 25318 False 的新数据集。
我能找到的唯一过滤器是有监督的重采样过滤器,但是我无法理解我应该使用哪些参数。
(可能有更好的过滤器来做我想做的事)
我在这些参数上取得了一些成功
biasToUniformClass = 1.0
invertSelection = False
noReplacement = False
randomSeed = 1
sampleSizePercent = 157.5 (a magic number I've arrived at by trial and error)
这会产生 25277 True 和 25165 False。不完全是我想要的,但非常接近。
问题是我不知道如何得出这个幻数。我也没有得到我真正想要的实例数量。
是否有更好的过滤器用于此目的? 如果没有,有没有办法计算 sampleSizePercent 幻数?
非常感谢任何帮助:)
补充问题,我最好在我的布尔列上运行 NominalToBinary 以确保它们是二进制的?我正在使用 NaiveBayes 分类器(目前),我没有任何缺失的实例。
杰森
【问题讨论】:
标签: weka