我怎么知道训练数据足以用于机器学习答案

【问题标题】：How can I know training data is enough for machine learning我怎么知道训练数据足以用于机器学习
【发布时间】：2014-09-05 08:06:47
【问题描述】：

例如：如果我想训练一个分类器（可能是 SVM），我需要收集多少样本？有测量方法吗？

【问题讨论】：

【解决方案1】：

要知道您需要收集多少样本并不容易。但是，您可以按照以下步骤操作：

用于解决典型的机器学习问题：

如果您的模型没有遭受“高偏差”，此方法将有效。

【讨论】：

【解决方案2】：

这在很大程度上取决于数据的性质和您尝试做出的预测，但作为一个简单的规则，您的训练数据应该大约是模型参数数量的 10 倍。例如，在训练具有 N 个特征的逻辑回归时，尝试从 10N 个训练实例开始。

【讨论】：

我正在使用逻辑回归对评论 cmets 进行分类。在我对数据进行规范化和矢量化之后，我有一个数组，其中每一列都是一个唯一的单词。上面当你说“参数”、“特征”和“训练实例”时，这与我应用 10X 规则的评论 cmets 的数量与唯一词的数量有什么关系？

【解决方案3】：

不幸的是，没有简单的方法。

经验法则是越大越好，但在实际使用中，您必须收集足够数量的数据。足够我的意思是覆盖你认为可以接受的大部分建模空间。

另外，数量并不是一切。测试样本的质量也很重要，即训练样本不应包含重复。

就个人而言，当我没有一次获得所有可能的训练数据时，我会收集一些训练数据，然后训练一个分类器。然后我的分类器质量不可接受，我收集更多的数据，等等。

Here 是一些关于估计训练集质量的科学。

【讨论】：