【发布时间】:2019-08-03 14:13:37
【问题描述】:
1) 随机森林是否需要标准化?
2) 应该对所有特征进行归一化还是仅对数字特征进行归一化?
3) 在拆分为训练数据和测试数据之前或之后进行归一化是否重要?
4) 我是否需要对将被分类的未来对象的特征进行预处理? (接受模型后,而不是在测试期间)
【问题讨论】:
标签: python data-science normalization preprocessor feature-engineering
1) 随机森林是否需要标准化?
2) 应该对所有特征进行归一化还是仅对数字特征进行归一化?
3) 在拆分为训练数据和测试数据之前或之后进行归一化是否重要?
4) 我是否需要对将被分类的未来对象的特征进行预处理? (接受模型后,而不是在测试期间)
【问题讨论】:
标签: python data-science normalization preprocessor feature-engineering
1) 不!任何基于树的分类器都不需要特征归一化。
2) 一般来说,应该对所有特征进行归一化,而不仅仅是数字特征。
3) 在实践中它并没有太大的区别。但是,正确的做法是从训练集中识别每个特征的最小值和最大值,然后根据这些值对两个集的特征进行归一化。
4) 是的,之后任何需要分类的样本都应完全按照您在训练期间的处理方式进行处理。
【讨论】: