【发布时间】:2018-03-02 16:54:59
【问题描述】:
我是机器学习的新手。我目前正在解决一个以字符串为目标的分类问题。我已经拆分了测试集和训练集,并通过将它们转换为OneHotEncoder 来处理字符串属性,并且我正在使用StandardScaler 来缩放训练集的数值特征。
我的问题是关于测试集的,我是否需要转换仍然为字符串格式的测试集目标,就像我使用OneHotEncoder 对训练集的字符串目标所做的那样,或者我是否将测试集单独保留为是的,分类器会自己完成这项工作吗?同样对于数字属性,我是否必须使用StandardScaler 来缩放测试集中的数字属性,或者一旦在训练集上完成训练,分类器就会自行完成?
【问题讨论】: