【发布时间】:2018-10-10 09:42:24
【问题描述】:
我正在使用 sklearn 中的 Timeseriessplit 函数来创建训练集和测试集 用于时间序列的交叉验证。例如,这个想法是使用 n-1 个数据点进行训练,使用第 n 个数据点进行测试。此拆分必须始终是有序的,因为它是一个时间序列。 但是,我不明白,为什么示例中的数据集 X 的格式如下:
from sklearn.model_selection import TimeSeriesSplit
import numpy as np
X = np.array([[1, 2], [3, 4], [1, 2], [3, 4]])
y = np.array([1, 2, 3, 4])
tscv = TimeSeriesSplit(n_splits=3)
print(tscv)
for train_index, test_index in tscv.split(X):
print("TRAIN:", train_index, "TEST:", test_index)
X_train, X_test = X[train_index], X[test_index]
y_train, y_test = y[train_index], y[test_index]
将数据准备为 X = np.array([[1, 2], [3, 4], [1, 2], [3, 4]]) 背后的逻辑是什么? 当然,我看了页面上的注释,但还是不明白
【问题讨论】:
-
您能否尝试更具体地说明您对 X 数组结构完全不了解的内容?
标签: python machine-learning scikit-learn