【发布时间】:2015-08-03 22:12:49
【问题描述】:
我正在尝试弄清楚如何正确使用 scikit-learn 的 SGDRegressor 模型。
为了适应数据集,我需要调用function fit(X,y),其中 x 是一个形状为 (n_samples,n_features) 的 numpy 数组,而 y 是一个长度为 n_samples 的 1d numpy 数组。我试图弄清楚 y 应该代表什么。
例如我的数据显示如下:
我的特征是从 1972 年开始的年份,这些值是那一年的对应值。我试图预测未来几年的值,例如 2008 年或 2012 年。我假设我的数据中的每一行应该代表 X 中的一行/样本,其中每个元素都是一年的值。在那种情况下,你会是什么?我在想 y 应该只是年份,但是 y 的长度是 n_features 而不是 n_samples。如果 y 的长度为 n_samples,那么长度为 5 的 y 可能是多少(数据中的样本数如下所示)。我想我必须以某种方式转换这些数据。
【问题讨论】:
-
您对此不是很清楚,但是您尝试在数据集中预测 2008 年或 2012 年的任何值吗?否则,这是一个无监督学习问题,但您正在尝试对其应用监督学习技术。为什么不对您的数据进行某种曲线拟合,然后进行推断?
标签: python numpy machine-learning statistics scikit-learn