【问题标题】:Append data to training dataset after train test split训练测试拆分后将数据附加到训练数据集
【发布时间】:2021-12-08 00:22:11
【问题描述】:

我已经使用训练测试拆分库拆分了我的训练和测试数据集

lengths = [int(len(supervised_data)*0.8),int(len(supervised_data)*0.2)+1]
train_data, test_data = torch.utils.data.random_split(supervised_data, lengths)

现在我正在尝试将其他数据附加到 train_data

因为我正在尝试运行多个实验(向训练添加更多数据,同时对所有实验使用相同的 test_data)。

这可能吗?

【问题讨论】:

  • 您尝试将哪些数据附加到训练数据中?如果它具有相同的格式,您可以将其附加到 train_data。随机拆分只会将您提供的整个数据拆分为两部分 - 训练数据和测试数据,具体取决于您提供的拆分比率,并将随机拆分。如果您有与原始数据格式相同的其他数据,则可以将其附加到训练数据并训练您的模型。
  • 为什么?只需使用您拆分的原始数据框即可。
  • @GedasMiksenas 我正在尝试运行实验,这就是为什么,但我想保持所有实验的测试数据相同
  • @RishabhMishra 它与我已经拆分的数据格式相同
  • 您绝对可以将附加数据与训练数据相结合。在您的情况下,这类似于加入训练数据和测试数据以获取完整的supervised_data。因此,您将使用 (train_data + additional_data) 训练模型并在 test_data 上对其进行测试。

标签: python scikit-learn pytorch train-test-split


【解决方案1】:

如果你想加入两个数据帧(train_data、test_data),那么你可以这样做:

joined_df = pd.concat([train_data, test_data])

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2019-05-01
    • 1970-01-01
    • 2022-06-25
    • 2017-02-20
    • 2019-12-15
    • 1970-01-01
    • 2018-06-04
    相关资源
    最近更新 更多