【发布时间】:2023-02-01 07:38:47
【问题描述】:
我正在使用 Google Colab 微调预训练模型。
我成功地预处理了一个数据集并创建了一个 Seq2SeqTrainer 类的实例:
trainer = Seq2SeqTrainer(
model,
args,
train_dataset=tokenized_datasets["train"],
eval_dataset=tokenized_datasets["validation"],
data_collator=data_collator,
tokenizer=tokenizer,
compute_metrics=compute_metrics
)
问题是在会话结束后从最后一个检查点开始训练它。
如果我运行trainer.train(),它运行正确。由于需要很长时间,我有时会在几个小时后回到 Colab 选项卡,而且我知道如果会话崩溃我可以从最后一个检查点继续训练,如下所示:trainer.train("checkpoint-5500")
如果我回来得太晚,Google Colab 上的检查点数据已经不存在了,所以即使我知道训练已经到了这个点,我也必须重新开始。
有什么办法可以解决这个问题吗?即延长会议?
【问题讨论】:
-
您是否考虑过将检查点保存在 colab 之外(如果您打算使用 colab,那么可能在您的驱动器上),当您回来时只需加载它们?
-
谢谢,有一个比我想象的更简单的解决方案!再次感谢!
-
保存检查点对你有帮助吗?如果是这样,我会为可能来到这里的未来开发人员制定一个你可以接受的答案
-
是的,在创建 Seq2SeqTrainingArguments 的实例时将输出目录设置为 Google Drive 路径解决了我遇到的问题。是的,我会接受你的回答:)
标签: python machine-learning google-colaboratory