【发布时间】:2019-03-09 14:56:42
【问题描述】:
我正在尝试使用深度学习模型进行时间序列预测,在将数据传递给模型之前,我想缩放不同的变量,因为它们的范围大不相同。
我通常是“即时”完成的:加载数据集的训练子集,从整个子集中获取缩放器,存储它,然后在我想使用它进行测试时加载它。
现在数据非常大,我不会一次加载所有训练数据进行训练。
我怎么去获得缩放器?我事先考虑过一次性加载所有数据以计算缩放器(通常我使用 sklearn 缩放器,如 StandardScaler),然后在我的训练过程中加载它。
这是一种常见的做法吗?如果是,如果将数据添加到训练数据集中,你会怎么做?是否可以组合缩放器来避免一次性操作而只是“更新”缩放器?
【问题讨论】:
-
我正在尝试使用...您是否有机会编辑您的帖子,以minimal reproducible example 的形式包含其中的某些部分?如果你没有遇到什么具体问题,可以简明扼要地回答,这就是一份咨询工作。
标签: python machine-learning scikit-learn data-science