【发布时间】:2023-05-18 07:31:01
【问题描述】:
我正在使用随机森林算法作为我论文项目的分类器。 训练集由数千张图像组成,每张图像大约 2000 像素被采样。对于每个像素,我有数十万个特征。和 我目前的硬件限制(8G 内存,可能扩展到 16G)我能够 仅将一张图像的样本(即每个像素的特征)放入内存中。我的 问题是:是否可以多次调用train方法,每次 使用不同图像的样本,并自动获取统计模型 每次通话都更新?我对变量重要性特别感兴趣,因为在我 用整个特征集训练完整的训练集,我的想法是减少 特征的数量从几十万到大约 2000,只保留 最重要的。
感谢您的任何建议, 丹尼尔
【问题讨论】:
标签: opencv machine-learning random-forest training-data