机器学习中从多维空间中选择多样化数据集子样本的方法？答案

【问题标题】：Methods for selecting a diverse data-set subsample from multi-dimensional space in machine learning?机器学习中从多维空间中选择多样化数据集子样本的方法？
【发布时间】：2016-12-01 11:37:55
【问题描述】：

我正在考虑创建一个尽可能多样化的训练集，同时将数据压缩到更小的尺寸（取决于数据集中数据点的相似程度）。这是为了防止过度拟合数据中相对不重要的部分。解释如下：

问题描述如下：我在训练赛车数据，很大一部分路比较直。这部分数据包含的方差相对较小，相对不重要。只是留在路上并加快速度。在我看来，最困难的部分是：角球预测，你开角的速度/角度。

为了简化问题并最大限度地学习这部分，我想只选择显着不同的数据点。因此，在保留不同类型拐角的数据的同时，显着减少了直线部分的数据（以及相同类型的拐角）。数据基本上是一个 50 维的向量。我想保持维数，只想让这个多维空间中数据点的密度更加均等。我也不知道量化“更平等”的任何好方法。因此，这个问题基本上是关于预处理数据的问题。

是否有任何方法已经做到了这一点，或者是否有其他方法可以实现相同的目标？

【问题讨论】：

标签： python machine-learning data-processing

【解决方案1】：

如果我正确理解了您的数据集，您需要对向量进行平滑处理，然后从经过平滑处理的向量中获得最显着的原始向量偏差。 Savitzky–Golay filter 是通过数组（向量）平滑数据的常用方法。如果您决定使用 Python，那么scipy.signal.savgol_filter 就是您所需要的。

A good answer related to the topic.

【讨论】：