【问题标题】:Regularization on Sample vs Full Dataset for Machine Learning机器学习的样本与完整数据集的正则化
【发布时间】:2017-06-18 09:03:36
【问题描述】:

我最近看了一个视频,解释说对于深度学习,如果你添加更多的数据,你就不需要那么多的正则化,这是有道理的。

话虽如此,这句话是否适用于“正常”机器学习算法,例如随机森林?如果是这样,在为算法搜索最佳超参数时,理论上你应该有尽可能多的数据作为输入数据集(当然,它会进一步划分为交叉验证集等),而不仅仅是一个样本它。这当然意味着更长的训练时间,因为对于每个超参数组合,您都有 X 个需要训练的交叉验证集等等。

所以基本上,假设为数据集的大小样本找到的参数是用于整个数据集的“最佳”参数是否公平?

【问题讨论】:

    标签: machine-learning deep-learning random-forest regularized


    【解决方案1】:

    从统计学家的角度来说:这实际上取决于您的估算员的质量。如果它是无偏且低方差的,那么样本就可以了。如果方差很大,您将希望使用所有可以使用的数据。

    【讨论】:

      猜你喜欢
      • 2017-01-16
      • 1970-01-01
      • 1970-01-01
      • 2021-12-24
      • 1970-01-01
      • 2017-04-20
      • 2016-05-25
      • 2015-06-07
      • 2017-12-26
      相关资源
      最近更新 更多