1.数据归约的概念
1.1 数据归约
数据规约方法类似数据集的压缩,它通过维度的减少或者数据量的减少,来达到降低数据规模的目的。
- 数据归约策略概述
- 维度归约
- 数量归约
2 数据归约策略
对于小型或中型数据集,一般的数据预处理步骤已经足够。但对真正大型数据集来讲,在应用数据挖掘技术以前,更可能采取一个中间的、额外的步骤-数据归约。
- 计算时间:较简单的数据,即经过数据归约后的结果,可减少数据挖掘消耗的时间。
- 预测/描述精度:估量了数据归纳和概括为模型的好坏。
- 数据挖掘模型的描述:简单的描述通常来自数据归约,这样模型能得到更好理解。
- 数据归约的策略:维归约、数量归约
1、维归约减少所考虑的随机变量或属性的个数。代表方法为小波变换、主成分分析、属性集选择。
2、数量规约用替代的、较小的数据表示形式替换原数据。代表方法为线性回归等。
3 维度归约
3.1 维归约-小波变换的应用
- 字符串压缩在整合数据源的过程中,很可能会出现这些情况:
1、有丰富的理论和调优的算法
2、典型的有损压缩
3、但是只有有限的操作是可行的 - 音频/视频的压缩
1、通常是有损压缩,逐步细化
2、有时候小片段的信号可重构,而不需要重建整个信号
小波变换的应用如下图所示: