【发布时间】:2021-12-08 00:22:11
【问题描述】:
我已经使用训练测试拆分库拆分了我的训练和测试数据集
lengths = [int(len(supervised_data)*0.8),int(len(supervised_data)*0.2)+1]
train_data, test_data = torch.utils.data.random_split(supervised_data, lengths)
现在我正在尝试将其他数据附加到 train_data。
因为我正在尝试运行多个实验(向训练添加更多数据,同时对所有实验使用相同的 test_data)。
这可能吗?
【问题讨论】:
-
您尝试将哪些数据附加到训练数据中?如果它具有相同的格式,您可以将其附加到 train_data。随机拆分只会将您提供的整个数据拆分为两部分 - 训练数据和测试数据,具体取决于您提供的拆分比率,并将随机拆分。如果您有与原始数据格式相同的其他数据,则可以将其附加到训练数据并训练您的模型。
-
为什么?只需使用您拆分的原始数据框即可。
-
@GedasMiksenas 我正在尝试运行实验,这就是为什么,但我想保持所有实验的测试数据相同
-
@RishabhMishra 它与我已经拆分的数据格式相同
-
您绝对可以将附加数据与训练数据相结合。在您的情况下,这类似于加入训练数据和测试数据以获取完整的
supervised_data。因此,您将使用 (train_data + additional_data) 训练模型并在 test_data 上对其进行测试。
标签: python scikit-learn pytorch train-test-split