删除 ML 训练集的重复项？答案

【问题标题】：Removing duplicates for ML training set?删除 ML 训练集的重复项？
【发布时间】：2022-06-10 18:45:42
【问题描述】：

我想知道处理机器学习训练集的重复观察的常见做法（如果有的话）是什么。

删除重复的观察结果肯定会加快计算速度，这是一个好处。

但它不会因为简化模型而抛弃它吗？模型是否考虑了重复的数量？我感觉这取决于模型，但无法找到明确的答案。

【问题讨论】：

标签： machine-learning duplicates data-fitting

【解决方案1】：

我可以想象这对于您的特定用例、您的数据和您使用的模型类型会有很大的不同。

如果某条记录有许多重复项，许多模型会倾向于正确获取该记录：无论是许多决策树背后的 C4.5 算法，还是神经网络背后的随机梯度下降。

如果您了解到重复项是由错误的训练数据造成的，那么删除重复项可能是一件非常合理的事情，因为在这种情况下，您会希望修改数据以尽可能准确地代表真实世界。尽管如果您的数据的性质只是许多记录相同，但它们仍然是合法的数据点，那么对于许多应用程序，您希望您的模型适当地权衡这些数据点，因为最终，这就是您的真实- 世界数据看起来也一样。

【讨论】：