【发布时间】:2014-10-29 04:13:15
【问题描述】:
因此,想象一下可以访问足够质量的足够数据(用于训练和测试的数百万个数据点)。请暂时忽略概念漂移并假设数据是静态的并且不会随时间变化。就模型的质量而言,使用所有这些数据是否有意义?
Brain 和 Webb (http://www.csse.monash.edu.au/~webb/Files/BrainWebb99.pdf) 包含了一些关于试验不同数据集大小的结果。他们经过测试的算法在使用 16,000 或 32,000 个数据点进行训练后收敛到一定程度的稳定。然而,由于我们生活在大数据世界中,我们可以访问数百万个点的数据集,所以这篇论文有些相关但已经过时了。
关于数据集大小对学习算法(朴素贝叶斯、决策树、SVM、神经网络等)的影响,是否有任何最新研究。
- 什么时候学习算法收敛到某个稳定的模型,更多的数据不再提高质量?
- 它会在 50,000 个数据点之后发生,还是在 200,000 个之后或仅在 1,000,000 个之后发生?
- 有经验法则吗?
- 或者算法无法收敛到稳定的模型,达到一定的平衡?
我为什么要问这个?想象一个存储有限且有大量独特模型(具有自己独特数据集的数千个模型)且无法增加存储的系统。所以限制数据集的大小很重要。
对此有何想法或研究?
【问题讨论】:
标签: algorithm machine-learning dataset bigdata svm