【发布时间】:2016-10-11 16:32:07
【问题描述】:
到目前为止,我只有一个数据集 (df.csv)。到目前为止,我使用 20% 的验证大小和 .train_test_split 用于正常回归模型。
array = df.values
X = array[:,0:26]
Y = array[:,26]
validation_size = 0.20
seed = 7
X_train, X_validation, Y_train, Y_validation =
cross_validation.train_test_split(X, Y,
test_size=validation_size, random_state=seed)
num_folds = 10
num_instances = len(X_train)
seed = 7
scoring = 'mean_squared_error'
当我有三个单独的数据集(train.csv/test.csv/ground_truth.csv)时,我该如何处理?当然,一开始我使用的是 train.csv,然后是 test.csv,最后是 ground_truth。但是我应该如何在我的模型中实现这些不同的数据集呢?
【问题讨论】:
-
您的问题没有真正的意义,因为在训练模型时没有理由将训练/测试/验证拆分为 csv 文件。我建议查看 sklearn 文档中的示例,然后发布回归的完整尝试。 scikit-learn.org/stable/modules/cross_validation.html
-
感谢您的来信。但这正是我的问题,当我只有 1 个数据集时,我知道如何处理交叉验证。但就我而言,我有三个数据集。 train_data 与 run to failure 事件,test_data 没有失败事件(为此我需要预测)和 ground_throuth_data 定义剩余生命。
标签: python numpy machine-learning scipy cross-validation