关于实现 AdaBoost 算法的问题

【问题标题】：questions on implementing AdaBoost algorithm关于实现 AdaBoost 算法的问题
【发布时间】：2012-11-24 17:13:44
【问题描述】：

我正在尝试实现 AdaBoost 算法，有两个问题。

1) 在每次迭代中，必须根据概率分布对训练数据进行重新采样。重新采样的数据集的大小是否应该与原始数据集的大小相同。 2）如果我根据概率分布对训练数据集进行重新采样，很有可能我可以获得单个数据点的多个副本。我应该在每次迭代训练弱分类器时保留所有这些冗余副本吗？

【问题讨论】：

【解决方案1】：

1) 您不需要实际重新采样数据集，只需在分类器的训练中加权数据点就足够了，即弱分类器的目标函数应该被加权。

如果数据集的大小足够大，您可能还可以使用采样，并且您采样的数据集的大小并不重要本身。

2) 如果您确实使用采样并获得冗余副本，则绝对应该保留它们，否则您的弱分类器目标函数将不正确。

【讨论】：