【发布时间】:2017-06-18 09:03:36
【问题描述】:
我最近看了一个视频,解释说对于深度学习,如果你添加更多的数据,你就不需要那么多的正则化,这是有道理的。
话虽如此,这句话是否适用于“正常”机器学习算法,例如随机森林?如果是这样,在为算法搜索最佳超参数时,理论上你应该有尽可能多的数据作为输入数据集(当然,它会进一步划分为交叉验证集等),而不仅仅是一个样本它。这当然意味着更长的训练时间,因为对于每个超参数组合,您都有 X 个需要训练的交叉验证集等等。
所以基本上,假设为数据集的大小样本找到的参数是用于整个数据集的“最佳”参数是否公平?
【问题讨论】:
标签: machine-learning deep-learning random-forest regularized