训练测试拆分后将数据附加到训练数据集答案

【问题标题】：Append data to training dataset after train test split训练测试拆分后将数据附加到训练数据集
【发布时间】：2021-12-08 00:22:11
【问题描述】：

我已经使用训练测试拆分库拆分了我的训练和测试数据集

lengths = [int(len(supervised_data)*0.8),int(len(supervised_data)*0.2)+1]
train_data, test_data = torch.utils.data.random_split(supervised_data, lengths)

现在我正在尝试将其他数据附加到 train_data。

因为我正在尝试运行多个实验（向训练添加更多数据，同时对所有实验使用相同的 test_data）。

这可能吗？

【问题讨论】：

您尝试将哪些数据附加到训练数据中？如果它具有相同的格式，您可以将其附加到 train_data。随机拆分只会将您提供的整个数据拆分为两部分 - 训练数据和测试数据，具体取决于您提供的拆分比率，并将随机拆分。如果您有与原始数据格式相同的其他数据，则可以将其附加到训练数据并训练您的模型。
为什么？只需使用您拆分的原始数据框即可。
@GedasMiksenas 我正在尝试运行实验，这就是为什么，但我想保持所有实验的测试数据相同
@RishabhMishra 它与我已经拆分的数据格式相同
您绝对可以将附加数据与训练数据相结合。在您的情况下，这类似于加入训练数据和测试数据以获取完整的supervised_data。因此，您将使用 (train_data + additional_data) 训练模型并在 test_data 上对其进行测试。

标签： python scikit-learn pytorch train-test-split

【解决方案1】：

如果你想加入两个数据帧（train_data、test_data），那么你可以这样做：

joined_df = pd.concat([train_data, test_data])

【讨论】：