【发布时间】:2021-10-27 23:02:06
【问题描述】:
我正在使用 AutoTokenizer --> tokenizer1 = AutoTokenizer.from_pretrained("vinai/bertweet-base", normalization=True) 比 bert-base-uncased 的标记器更完整。问题是当我标记一些文本时,这个标记器有不同的特殊标记:
special_tokens={'bos_token': '<s>', 'eos_token': '</s>', 'unk_token': '<unk>', 'sep_token': '</s>', 'pad_token': '<pad>', 'cls_token': '<s>', 'mask_token': '<mask>'})>
而 bert-base-uncased 分词器有这些:
tokenizer = BertTokenizer.from_pretrained(PRE_TRAINED_MODEL_NAME, normalization=True)
special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'})>
我想替换这些特殊标记,以使它们适合 bert-base-uncased,因此不会引发错误。
【问题讨论】:
标签: python nlp tokenize bert-language-model