【发布时间】:2020-06-12 13:00:39
【问题描述】:
我收到了一个数据集,该数据集之前在训练和验证(测试)数据中进行了拆分。我需要将训练数据进一步拆分为单独的训练数据和校准集,我不想触及我当前的验证(测试)集。我无权访问原始数据集。
我想随机执行此操作,这样每次我可以运行我的脚本时,我都会得到不同的训练和校准测试。我知道 .sample() 函数,但我的训练数据集有 44000 行。
原始数据集
training = dataset.loc[dataset['split']== 'train']
print("Training Created")
#print(training.head())
validation = dataset.loc[dataset['split']== 'valid']
print("Validation Created")
#print(validation.head())
我需要这样的东西:
# proper training set
x_train = breast_cancer.values[:-100, :-1]
y_train = breast_cancer.values[:-100, -1]
# calibration set
x_cal = breast_cancer.values[-100:-1, :-1]
y_cal = breast_cancer.values[-100:-1, -1]
# (x_k+1, y_k+1)
x_test = breast_cancer.values[-1, :-1]
y_test = breast_cancer.values[-1, -1]
不确定如何处理第二次拆分
数据集示例
Object | Variable | Split
Cancer1 55 Train
Cancer5 45 Train
Cancer2 56 Valid
Cancer3 68 Valid
Cancer4 75 Valid
【问题讨论】:
标签: python pandas machine-learning scikit-learn training-data