【发布时间】:2020-06-21 09:44:45
【问题描述】:
我是数据科学的新手,当我浏览kaggle blog 之一时,我看到用户正在使用数据集的比例和拟合。我试图通过阅读文档来理解差异,但无法理解
【问题讨论】:
我是数据科学的新手,当我浏览kaggle blog 之一时,我看到用户正在使用数据集的比例和拟合。我试图通过阅读文档来理解差异,但无法理解
【问题讨论】:
没有任何代码很难理解你的困惑的根源。在您提供的链接中,数据首先使用sklearn.preprocessing.scale() 缩放,然后适合sklearn.ensemble.GradientBoostingRegressor。
因此,缩放操作转换数据使得所有特征都以相同的比例表示,并且拟合操作使用所述数据训练模型。
从您的问题看来,您认为这两个操作是互斥的,或者在某种程度上等效,但它们实际上是合乎逻辑的连续步骤。
一般来说,在训练模型之前,先对数据进行某种预处理(在这种情况下使用.scale()),然后再进行训练。在 sklearn 中,.fit() 方法用于训练(将函数/模型拟合到数据)。
希望它有意义!
【讨论】:
Scale 是一种数据规范化技术,当不同特征中的数据具有不相似的值时使用它,例如在一个特征中您的值在 1 到 10 之间,而在其他特征中您的值在 1000 到 10000 之间。
真正开始模型训练的函数在哪里合适
【讨论】:
Scaling 是数据的转换,一种用于规范化自变量或数据特征范围的方法。 fit 方法是一个训练步骤。
【讨论】: