【发布时间】:2021-03-24 22:33:48
【问题描述】:
我想通过将先前训练的标记器应用到我的文本文件来构建训练数据集。我的文本文件大小为 7.02 GB(7,543,648,706 字节)。这是我写的:
from transformers import LineByLineTextDataset
dataset = LineByLineTextDataset(
tokenizer=tokenizer,
file_path="data.txt", block_size = ???
)
这里的“块大小”到底是什么意思?如何确定它的价值?
【问题讨论】:
标签: python transformer