【发布时间】:2016-12-01 11:37:55
【问题描述】:
我正在考虑创建一个尽可能多样化的训练集,同时将数据压缩到更小的尺寸(取决于数据集中数据点的相似程度)。这是为了防止过度拟合数据中相对不重要的部分。解释如下:
问题描述如下:我在训练赛车数据,很大一部分路比较直。这部分数据包含的方差相对较小,相对不重要。只是留在路上并加快速度。在我看来,最困难的部分是:角球预测,你开角的速度/角度。
为了简化问题并最大限度地学习这部分,我想只选择显着不同的数据点。因此,在保留不同类型拐角的数据的同时,显着减少了直线部分的数据(以及相同类型的拐角)。数据基本上是一个 50 维的向量。我想保持维数,只想让这个多维空间中数据点的密度更加均等。我也不知道量化“更平等”的任何好方法。因此,这个问题基本上是关于预处理数据的问题。
是否有任何方法已经做到了这一点,或者是否有其他方法可以实现相同的目标?
【问题讨论】:
标签: python machine-learning data-processing