我们在进行统计分析前,需要对数据进行描述,观察数据是否服从正态分布,若数据不满足正态,可以对数据做一些变换,使其服从正态分布后再行分析,SPSS Modeler中,使用变换节点来实现数据变换。
变换节点:
案例:数据文件下的”C11_变换.xlsx“数据文件
数据流:
数据展示:
数据分布:销售金额分布情况如下
使用变换节点对该数据进行变换。
1. 设置
2. 变换结果
通过‘逆模型’转换后数据呈正态分布,接下来,生成导出节点。
在弹出的对话框中,选择标准化变化。
自动生成超节点,然后连接输出表格:
3. 建模前准备实战技巧
数据分区与平衡的顺序:如果用户对数据分区和平衡的处理顺序不当,很有可能会带来错误的结果。
因为在对数据采取平衡后新的数据中将会存在大量的重复数据(过采样),如果直接对新的数据进行分区,就会有重复的数据既出现在训练集也出现在测试集,对这样的数据进行建模和评估,很有可能会大大高估了模型的准确率。
正确的顺序:应当先对数据进行分区,将数据划分为训练集和测试集,再在分区节点中对数据集进行平衡化处理,并且勾选上“仅平衡训练数据”。