【问题标题】:How can I handle this datasets to create a datasetDict?如何处理这些数据集以创建 datasetDict?
【发布时间】:2021-08-23 10:21:36
【问题描述】:

我正在尝试构建一个 datasetDictionary 对象来在 PyTorch 上训练一个 QA 模型。我有这两个不同的数据集:

test_dataset

Dataset({
    features: ['answer_text', 'answer_start', 'title', 'context', 'question', 'answers', 'id'],
    num_rows: 21489
})

train_dataset

Dataset({
    features: ['answer_text', 'answer_start', 'title', 'context', 'question', 'answers', 'id'],
    num_rows: 54159
})

在数据集的documentation 中我没有找到任何东西。我是个菜鸟,因此解决方案可能真的很简单。我希望得到的是这样的:

dataset

DatasetDict({
    train: Dataset({
        features: ['answer_text', 'answer_start', 'title', 'context', 'question', 'answers', 'id'],
        num_rows: 54159
    })
    test: Dataset({
        features: ['answer_text', 'answer_start', 'title', 'context', 'question', 'answers', 'id'],
        num_rows: 21489
    })
})

我真的不知道如何使用两个数据集来创建 dataserDict 或如何设置键。此外,我希望将训练集“切割”成两个:训练集和验证集,而且这段话我也很难处理。最终结果应该是这样的:

dataset

DatasetDict({
    train: Dataset({
        features: ['answer_text', 'answer_start', 'title', 'context', 'question', 'answers', 'id'],
        num_rows: 54159 - x
    })
    validation: Dataset({
        features: ['answer_text', 'answer_start', 'title', 'context', 'question', 'answers', 'id'],
        num_rows: x
    })
    test: Dataset({
        features: ['answer_text', 'answer_start', 'title', 'context', 'question', 'answers', 'id'],
        num_rows: 21489
    })
})

提前谢谢你,原谅我是菜鸟:)

【问题讨论】:

    标签: python deep-learning pytorch dataset question-answering


    【解决方案1】:

    要获取验证数据集,您可以这样做:

    train_dataset, validation_dataset= train_dataset.train_test_split(test_size=0.1).values()
    

    此函数会将训练数据集的 10% 划分为验证数据集。

    要获得“DatasetDict”,你可以这样做:

    import datasets
    dd = datasets.DatasetDict({"train":train_dataset,"test":test_dataset})
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-10-16
      • 1970-01-01
      • 1970-01-01
      • 2017-03-19
      • 1970-01-01
      相关资源
      最近更新 更多