【发布时间】:2013-12-24 12:02:45
【问题描述】:
我想将不同分类器的不同错误率与弱学习器的错误率进行比较(比随机猜测要好)。所以,我的问题是,对于一个简单、易于处理的弱学习器有哪些选择?或者,我是否错误地理解了这个概念,而弱学习者只是我选择的任何基准(例如,线性回归)?
【问题讨论】:
标签: machine-learning ensemble-learning
我想将不同分类器的不同错误率与弱学习器的错误率进行比较(比随机猜测要好)。所以,我的问题是,对于一个简单、易于处理的弱学习器有哪些选择?或者,我是否错误地理解了这个概念,而弱学习者只是我选择的任何基准(例如,线性回归)?
【问题讨论】:
标签: machine-learning ensemble-learning
弱学习器基本上是每个特征的阈值。一个简单的例子是一个名为decision stump 的一级决策树,它应用于bagging 或boosting。它只是为一个特征选择一个阈值,并在该阈值上拆分数据(例如,根据petal width 确定鸢尾花是鸢尾花还是维吉尼亚鸢尾)。然后通过 bagging 或 AdaBoost 对这个特定功能进行训练。
【讨论】:
比随机猜测要好
这基本上是弱学习器的唯一要求。只要您能够始终击败随机猜测,任何真正的提升算法都能够提高最终集成的准确性。那么你应该选择的弱学习器是 3 个因素之间的权衡:
经典的弱学习器是决策树。通过更改树的最大深度,您可以控制所有 3 个因素。这使得它们在提升方面非常受欢迎。您应该使用什么取决于您的个人问题,但决策树是一个很好的起点。
注意:只要算法支持加权数据实例,任何算法都可以用于提升。我大学的一位演讲嘉宾正在为他在计算生物学方面的工作提升 5 层深度神经网络。
【讨论】: