【发布时间】:2021-08-23 10:21:36
【问题描述】:
我正在尝试构建一个 datasetDictionary 对象来在 PyTorch 上训练一个 QA 模型。我有这两个不同的数据集:
test_dataset
Dataset({
features: ['answer_text', 'answer_start', 'title', 'context', 'question', 'answers', 'id'],
num_rows: 21489
})
和
train_dataset
Dataset({
features: ['answer_text', 'answer_start', 'title', 'context', 'question', 'answers', 'id'],
num_rows: 54159
})
在数据集的documentation 中我没有找到任何东西。我是个菜鸟,因此解决方案可能真的很简单。我希望得到的是这样的:
dataset
DatasetDict({
train: Dataset({
features: ['answer_text', 'answer_start', 'title', 'context', 'question', 'answers', 'id'],
num_rows: 54159
})
test: Dataset({
features: ['answer_text', 'answer_start', 'title', 'context', 'question', 'answers', 'id'],
num_rows: 21489
})
})
我真的不知道如何使用两个数据集来创建 dataserDict 或如何设置键。此外,我希望将训练集“切割”成两个:训练集和验证集,而且这段话我也很难处理。最终结果应该是这样的:
dataset
DatasetDict({
train: Dataset({
features: ['answer_text', 'answer_start', 'title', 'context', 'question', 'answers', 'id'],
num_rows: 54159 - x
})
validation: Dataset({
features: ['answer_text', 'answer_start', 'title', 'context', 'question', 'answers', 'id'],
num_rows: x
})
test: Dataset({
features: ['answer_text', 'answer_start', 'title', 'context', 'question', 'answers', 'id'],
num_rows: 21489
})
})
提前谢谢你,原谅我是菜鸟:)
【问题讨论】:
标签: python deep-learning pytorch dataset question-answering