【问题标题】:Removing duplicates for ML training set?删除 ML 训练集的重复项?
【发布时间】:2022-06-10 18:45:42
【问题描述】:

我想知道处理机器学习训练集的重复观察的常见做法(如果有的话)是什么。

删除重复的观察结果肯定会加快计算速度,这是一个好处。

但它不会因为简化模型而抛弃它吗?模型是否考虑了重复的数量?我感觉这取决于模型,但无法找到明确的答案。

【问题讨论】:

    标签: machine-learning duplicates data-fitting


    【解决方案1】:

    我可以想象这对于您的特定用例、您的数据和您使用的模型类型会有很大的不同。

    如果某条记录有许多重复项,许多模型会倾向于正确获取该记录:无论是许多决策树背后的 C4.5 算法,还是神经网络背后的随机梯度下降。

    如果您了解到重复项是由错误的训练数据造成的,那么删除重复项可能是一件非常合理的事情,因为在这种情况下,您会希望修改数据以尽可能准确地代表真实世界。 尽管如果您的数据的性质只是许多记录相同,但它们仍然是合法的数据点,那么对于许多应用程序,您希望您的模型适当地权衡这些数据点,因为最终,这就是您的真实- 世界数据看起来也一样。

    【讨论】:

      猜你喜欢
      • 2019-10-27
      • 1970-01-01
      • 2017-12-31
      • 1970-01-01
      • 2019-03-18
      • 2015-01-13
      • 2019-03-16
      • 1970-01-01
      • 2019-01-22
      相关资源
      最近更新 更多