【问题标题】:Methods for selecting a diverse data-set subsample from multi-dimensional space in machine learning?机器学习中从多维空间中选择多样化数据集子样本的方法?
【发布时间】:2016-12-01 11:37:55
【问题描述】:

我正在考虑创建一个尽可能多样化的训练集,同时将数据压缩到更小的尺寸(取决于数据集中数据点的相似程度)。这是为了防止过度拟合数据中相对不重要的部分。解释如下:

问题描述如下:我在训练赛车数据,很大一部分路比较直。这部分数据包含的方差相对较小,相对不重要。只是留在路上并加快速度。在我看来,最困难的部分是:角球预测,你开角的速度/角度。

为了简化问题并最大限度地学习这部分,我想只选择显着不同的数据点。因此,在保留不同类型拐角的数据的同时,显着减少了直线部分的数据(以及相同类型的拐角)。数据基本上是一个 50 维的向量。我想保持维数,只想让这个多维空间中数据点的密度更加均等。我也不知道量化“更平等”的任何好方法。因此,这个问题基本上是关于预处理数据的问题。

是否有任何方法已经做到了这一点,或者是否有其他方法可以实现相同的目标?

【问题讨论】:

    标签: python machine-learning data-processing


    【解决方案1】:

    如果我正确理解了您的数据集,您需要对向量进行平滑处理,然后从经过平滑处理的向量中获得最显着的原始向量偏差。 Savitzky–Golay filter 是通过数组(向量)平滑数据的常用方法。如果您决定使用 Python,那么scipy.signal.savgol_filter 就是您所需要的。

    A good answer related to the topic.

    【讨论】:

      猜你喜欢
      • 2015-08-26
      • 2017-06-18
      • 1970-01-01
      • 2011-07-21
      • 2017-10-26
      • 2016-08-30
      • 1970-01-01
      • 1970-01-01
      • 2021-08-01
      相关资源
      最近更新 更多