我们在进行统计分析前,需要对数据进行描述,观察数据是否服从正态分布,若数据不满足正态,可以对数据做一些变换,使其服从正态分布后再行分析,SPSS Modeler中,使用变换节点来实现数据变换。

变换节点
SPSS Modeler 建模前准备—数据变换与实战(指南 第十一章)
案例:数据文件下的”C11_变换.xlsx“数据文件

数据流
SPSS Modeler 建模前准备—数据变换与实战(指南 第十一章)
数据展示
SPSS Modeler 建模前准备—数据变换与实战(指南 第十一章)
数据分布:销售金额分布情况如下
SPSS Modeler 建模前准备—数据变换与实战(指南 第十一章)
使用变换节点对该数据进行变换。

1. 设置

SPSS Modeler 建模前准备—数据变换与实战(指南 第十一章)
SPSS Modeler 建模前准备—数据变换与实战(指南 第十一章)

2. 变换结果

SPSS Modeler 建模前准备—数据变换与实战(指南 第十一章)
通过‘逆模型’转换后数据呈正态分布,接下来,生成导出节点。
SPSS Modeler 建模前准备—数据变换与实战(指南 第十一章)
在弹出的对话框中,选择标准化变化。
SPSS Modeler 建模前准备—数据变换与实战(指南 第十一章)
自动生成超节点,然后连接输出表格:
SPSS Modeler 建模前准备—数据变换与实战(指南 第十一章)

3. 建模前准备实战技巧

数据分区与平衡的顺序:如果用户对数据分区和平衡的处理顺序不当,很有可能会带来错误的结果。
因为在对数据采取平衡后新的数据中将会存在大量的重复数据(过采样),如果直接对新的数据进行分区,就会有重复的数据既出现在训练集也出现在测试集,对这样的数据进行建模和评估,很有可能会大大高估了模型的准确率。

正确的顺序:应当先对数据进行分区,将数据划分为训练集和测试集,再在分区节点中对数据集进行平衡化处理,并且勾选上“仅平衡训练数据”。

SPSS Modeler 建模前准备—数据变换与实战(指南 第十一章)

相关文章:

  • 2021-09-10
  • 2021-05-21
  • 2021-06-18
  • 2022-01-23
  • 2021-10-08
  • 2021-11-14
  • 2021-06-06
  • 2021-05-25
猜你喜欢
  • 2021-05-07
  • 2021-07-09
  • 2021-04-25
  • 2021-08-31
  • 2022-01-16
  • 2021-05-07
  • 2021-07-19
相关资源
相似解决方案