【发布时间】:2022-06-10 18:45:42
【问题描述】:
我想知道处理机器学习训练集的重复观察的常见做法(如果有的话)是什么。
删除重复的观察结果肯定会加快计算速度,这是一个好处。
但它不会因为简化模型而抛弃它吗?模型是否考虑了重复的数量?我感觉这取决于模型,但无法找到明确的答案。
【问题讨论】:
标签: machine-learning duplicates data-fitting
我想知道处理机器学习训练集的重复观察的常见做法(如果有的话)是什么。
删除重复的观察结果肯定会加快计算速度,这是一个好处。
但它不会因为简化模型而抛弃它吗?模型是否考虑了重复的数量?我感觉这取决于模型,但无法找到明确的答案。
【问题讨论】:
标签: machine-learning duplicates data-fitting
我可以想象这对于您的特定用例、您的数据和您使用的模型类型会有很大的不同。
如果某条记录有许多重复项,许多模型会倾向于正确获取该记录:无论是许多决策树背后的 C4.5 算法,还是神经网络背后的随机梯度下降。
如果您了解到重复项是由错误的训练数据造成的,那么删除重复项可能是一件非常合理的事情,因为在这种情况下,您会希望修改数据以尽可能准确地代表真实世界。 尽管如果您的数据的性质只是许多记录相同,但它们仍然是合法的数据点,那么对于许多应用程序,您希望您的模型适当地权衡这些数据点,因为最终,这就是您的真实- 世界数据看起来也一样。
【讨论】: