【发布时间】:2015-01-13 11:52:38
【问题描述】:
对于数据挖掘竞赛,我正在构建一个客户流失预测模型。我有一个带有标签的训练数据集和一个没有标签的测试数据集。为了构建我的模型,我应用了一些过滤器来预处理训练数据集。我使用InterquartileRange、RemoveWithValues 和RemoveAttributes 过滤器搜索并删除了异常值和极值(因为InterquartileRange 为异常值和极值创建了新属性)。
我知道 Weka 需要提供的测试集和训练集具有相同的过滤器,但我需要测试集中的所有实例来查看预测分数。因此,我无法应用 RemoveWithValues 过滤器。因此,我得到“测试和训练集不兼容”。这个问题能解决吗?总而言之,我想使用基于没有极值和异常值的训练集构建的模型获得测试集所有实例的分数。
【问题讨论】:
标签: classification weka outliers