【发布时间】:2014-05-03 04:46:01
【问题描述】:
我在 WEKA 中使用 SMOTE 过滤器来平衡数据。
我对nearestNeighbors和percentage这两个参数有疑问。
nearestNeighbors -- 要使用的最近邻居的数量。
percent -- 要创建的 SMOTE 实例的百分比。
我应该如何设置它们?
我认为邻居的数量是它要创建的合成样本的数量。
那么百分比是什么意思呢?它应该小于或等于邻居的数量,对吧?是否考虑了合成样本的百分比?
例如:
如果我把 10 个邻居和 200% 放在一起会发生什么?
谁能给我一些正确使用的例子?
【问题讨论】:
-
如果我设置邻居 = 200 和百分比 = 300,我会得到相同数量的合成样本,邻居 = 100 和百分比 = 300。会有区别吗?会不会过拟合?
标签: data-mining weka sample-data