【发布时间】:2019-03-27 20:52:16
【问题描述】:
在创建机器学习模型时,我的同行告诉我,应该在机器学习模型构建阶段尽早进行拆分,尤其是在数据标准化或缩放之前。我对机器学习很陌生,所以一直在寻找一些建议。
这就是我正在做的事情
standardized_X = preprocessing.scale(x_data)
X_train_std, X_test_std, y_train_std, y_test_std = train_test_split(standardized_X, df_breast.CLASS.values, test_size=0.3, random_state=0)
而我被告知顺序应该是
X_train_std, X_test_std, y_train_std, y_test_std = train_test_split(standardized_X, df_breast.CLASS.values, test_size=0.3, random_state=0)
standardized_X = preprocessing.scale(x_data)
另外,如果可以的话,请提供很好的推理。
【问题讨论】:
标签: machine-learning