机器学习的样本与完整数据集的正则化答案

【问题标题】：Regularization on Sample vs Full Dataset for Machine Learning机器学习的样本与完整数据集的正则化
【发布时间】：2017-06-18 09:03:36
【问题描述】：

我最近看了一个视频，解释说对于深度学习，如果你添加更多的数据，你就不需要那么多的正则化，这是有道理的。

话虽如此，这句话是否适用于“正常”机器学习算法，例如随机森林？如果是这样，在为算法搜索最佳超参数时，理论上你应该有尽可能多的数据作为输入数据集（当然，它会进一步划分为交叉验证集等），而不仅仅是一个样本它。这当然意味着更长的训练时间，因为对于每个超参数组合，您都有 X 个需要训练的交叉验证集等等。

所以基本上，假设为数据集的大小样本找到的参数是用于整个数据集的“最佳”参数是否公平？

【问题讨论】：

【解决方案1】：

从统计学家的角度来说：这实际上取决于您的估算员的质量。如果它是无偏且低方差的，那么样本就可以了。如果方差很大，您将希望使用所有可以使用的数据。

【讨论】：