【发布时间】:2017-02-21 14:19:44
【问题描述】:
我有一个关于机器学习数据预处理的问题。专门转换数据,使其具有零均值和单位方差。 我已经将我的数据分成两个数据集(我知道我应该有三个,但为了简单起见,我们只说我有两个)。我应该转换我的训练数据集以使整个训练数据集具有单位方差和零均值,然后在测试模型时转换每个测试输入向量,以便每个特定的测试输入向量呈现单位方差和零均值,或者我应该只是转换将整个数据集(训练和测试)放在一起,以便整个事物呈现单位 var 和零均值?我的信念是,我应该这样做,这样我就不会在测试数据集中引入大量的偏见。但我不是专家,因此是我的问题。
【问题讨论】:
-
Afaik,人们将标准化应用于整个数据集。但是我问了一个类似的问题here,因为在在线培训场景中并不是那么简单。
标签: machine-learning artificial-intelligence data-processing