【发布时间】:2016-04-16 02:41:09
【问题描述】:
我有一组 N 个数据点 X = {x1, ..., xn} 和一组 N 个目标值/类 Y = { y1, ..., yn}。
给定 yi 的特征向量的构造考虑了数据点的“窗口”(因为没有更好的术语),例如我可能想堆叠“最后 4 个数据点”,即 xi-4、xi-3、xi-2、 xi-1 用于预测 yi。
显然,对于 4 的窗口大小,无法为前三个目标值构造这样的特征向量,我想简单地删除它们。同样对于最后一个数据点 xn.
这不是问题,除非我希望这作为 sklearn 管道的一部分进行。到目前为止,我已经成功地为其他任务编写了一些自定义转换器,但那些不能(据我所知)改变 Y 矩阵。
有没有一种方法可以做到这一点,我不知道或者我是否坚持这样做作为管道之外的预处理? (这意味着,我将无法使用 GridsearchCV 找到最佳窗口大小和移位。)
我已经尝试搜索这个,但我想出的只是this question,它处理从 X 矩阵中删除样本。那里接受的答案让我想,scikit-learn 不支持我想做的事情,但我想确定一下。
【问题讨论】:
标签: python scikit-learn pipeline