【发布时间】:2012-11-24 17:13:44
【问题描述】:
我正在尝试实现 AdaBoost 算法,有两个问题。
1) 在每次迭代中,必须根据概率分布对训练数据进行重新采样。重新采样的数据集的大小是否应该与原始数据集的大小相同。 2)如果我根据概率分布对训练数据集进行重新采样,很有可能我可以获得单个数据点的多个副本。我应该在每次迭代训练弱分类器时保留所有这些冗余副本吗?
【问题讨论】:
标签: r machine-learning data-mining adaboost
我正在尝试实现 AdaBoost 算法,有两个问题。
1) 在每次迭代中,必须根据概率分布对训练数据进行重新采样。重新采样的数据集的大小是否应该与原始数据集的大小相同。 2)如果我根据概率分布对训练数据集进行重新采样,很有可能我可以获得单个数据点的多个副本。我应该在每次迭代训练弱分类器时保留所有这些冗余副本吗?
【问题讨论】:
标签: r machine-learning data-mining adaboost
1) 您不需要实际重新采样数据集,只需在分类器的训练中加权数据点就足够了,即弱分类器的目标函数应该被加权。
如果数据集的大小足够大,您可能还可以使用采样,并且您采样的数据集的大小并不重要本身。
2) 如果您确实使用采样并获得冗余副本,则绝对应该保留它们,否则您的弱分类器目标函数将不正确。
【讨论】: