【发布时间】:2021-05-11 18:26:33
【问题描述】:
我正在处理用于内容分类的巨大文本数据集。我已经实现了 distilbert 模型和 distilberttokenizer.from_pretrained() 标记器.. 这个分词器花费了非常长的时间来分词我的文本数据,仅 14k 条记录大约需要 7 分钟,这是因为它在我的 CPU 上运行。
有什么办法可以强制分词器在我的 GPU 上运行。
【问题讨论】:
-
这似乎是 this question 的副本。
标签: deep-learning nlp huggingface-transformers huggingface-tokenizers