【发布时间】:2022-03-11 01:38:52
【问题描述】:
我有一个使用慢速标记器训练到磁盘的模型:
from transformers import convert_slow_tokenizer
from transformers import BertTokenizer, BertForSequenceClassificationa
mybert = BertForSequenceClassification.from_pretrained(PATH,
local_files_only=True,
)
tokenizer = BertTokenizer.from_pretrained(PATH,
local_files_only=True,
use_fast=True)
我可以像这样使用它来标记化:
tokenized_example = tokenizer(
mytext,
max_length=100,
truncation="only_second",
return_overflowing_tokens=True,
stride=50
)
但是,它并不快:
tokenized_example.is_fast
False
我尝试将其转换为快速的,看起来很成功
tokenizer = convert_slow_tokenizer.convert_slow_tokenizer(tokenizer)
但是,现在运行它给了我:
tokenized_example = tokenizer(
mytext,
max_length=100,
truncation="only_second",
return_overflowing_tokens=True,
stride=50
)
TypeError: 'tokenizers.Tokenizer' object is not callable
我怎样才能把这个慢的分词器转换成一个快的分词器?
我有seen this answer 并且我安装了句子——这并没有解决我的问题。
【问题讨论】:
-
显示堆栈跟踪。
-
你试过这个issue的建议了吗:github.com/huggingface/tokenizers/issues/424
标签: python huggingface-transformers huggingface-tokenizers