【发布时间】:2013-09-03 17:10:15
【问题描述】:
什么是随机森林中的袋外错误? 它是在随机森林中找到正确数量的树的最佳参数吗?
【问题讨论】:
-
如果这个问题不是特定于实现的,您可能想在stats.stackexchange.com 发布您的问题
标签: language-agnostic machine-learning classification random-forest
什么是随机森林中的袋外错误? 它是在随机森林中找到正确数量的树的最佳参数吗?
【问题讨论】:
标签: language-agnostic machine-learning classification random-forest
我会尝试解释一下:
假设我们的训练数据集用 T 表示,假设数据集有 M 个特征(或属性或变量)。
T = {(X1,y1), (X2,y2), ... (Xn, yn)}
和
Xi is input vector {xi1, xi2, ... xiM}
yi is the label (or output or class).
RF 总结:
随机森林算法是一种主要基于两种方法的分类器 -
假设我们决定在我们的森林中拥有S 的树木数量,那么我们首先创建"same size as original" 的S 数据集,该数据集是通过替换T 中的数据的随机重采样创建的(每个数据集n 次)。这将产生{T1, T2, ... TS} 数据集。这些中的每一个都称为引导数据集。由于“替换”,每个数据集Ti 都可能有重复的数据记录,并且 Ti 可能会丢失原始数据集中的多个数据记录。这称为Bootstrapping。 (en.wikipedia.org/wiki/Bootstrapping_(statistics))
Bagging 是采用引导程序然后聚合在每个引导程序上学习的模型的过程。
现在,RF 创建S 树并使用m (=sqrt(M) or =floor(lnM+1)) 可能的特征中的m (=sqrt(M) or =floor(lnM+1)) 随机子特征来创建任何树。这称为随机子空间方法。
因此,为每个 Ti 引导数据集创建一个树 Ki。如果你想对一些输入数据D = {x1, x2, ..., xM} 进行分类,你让它通过每棵树并产生S 输出(每棵树一个),可以用Y = {y1, y2, ..., ys} 表示。最终预测是对该集合的多数票。
袋外错误:
创建分类器(S树)后,对于原始训练集中的每个(Xi,yi),即T,选择不包括(Xi,yi)的所有Tk。注意,这个子集是一组自举数据集,不包含原始数据集中的特定记录。这组被称为袋外示例。有n 这样的子集(原始数据集 T 中的每个数据记录一个)。 OOB 分类器是仅对Tk 的投票聚合,因此它不包含(xi,yi)。
泛化误差的袋外估计是训练集上袋外分类器的错误率(与已知的yi 比较)。
为什么重要?
Breiman [1996b] 中袋装分类器的误差估计研究,提供了经验证据表明袋外估计 与使用与训练大小相同的测试集一样准确 放。因此,使用袋外误差估计无需 用于预留测试集。1
(感谢@Rudolf 的更正。下面是他的cmets。)
【讨论】:
(Xi,yi) 表示(由 T 表示) - 找到所有缺少此记录的引导样本或数据集(例如 T3、T7、T8、T9) - 我们在森林中运行当前记录 (Xi,yi),但仅计算与引导样本对应的树的选票没有这个记录(即K3、K7、K8、K9)。如果还不清楚,请告诉我。
Now, RF creates S trees and uses m ... random subfeatures out of M possible features to create any tree. 不是创建整个树,而是创建树中的每个节点。据我了解,每次它必须制作一个分叉节点时,它都会对 m 特征进行采样以使用。
在 Breiman 的随机森林算法的原始实现中,每棵树都在大约 2/3 的总训练数据上进行训练。随着森林的建立,每棵树都可以在未用于构建该树的样本上进行测试(类似于留出交叉验证)。这是袋外误差估计——随机森林在构建时的内部误差估计。
【讨论】: