【问题标题】:How to replace BERT tokenizer special tokens如何替换 BERT 标记器特殊标记
【发布时间】:2021-10-27 23:02:06
【问题描述】:

我正在使用 AutoTokenizer --> tokenizer1 = AutoTokenizer.from_pretrained("vinai/bertweet-base", normalization=True) 比 bert-base-uncased 的标记器更完整。问题是当我标记一些文本时,这个标记器有不同的特殊标记:

special_tokens={'bos_token': '<s>', 'eos_token': '</s>', 'unk_token': '<unk>', 'sep_token': '</s>', 'pad_token': '<pad>', 'cls_token': '<s>', 'mask_token': '<mask>'})> 

而 bert-base-uncased 分词器有这些:

tokenizer = BertTokenizer.from_pretrained(PRE_TRAINED_MODEL_NAME, normalization=True)
special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'})>

我想替换这些特殊标记,以使它们适合 bert-base-uncased,因此不会引发错误。

【问题讨论】:

    标签: python nlp tokenize bert-language-model


    【解决方案1】:

    这主要是一个字符串替换问题,但也有一些复杂性。你的第一组有“bos_token”和“cls_token”都用&lt;s&gt;表示,“eos_token”和“sep_token”都用&lt;/s&gt;表示。您的第二组没有 BOS 和 EOS 概念,所以如果我们做出其他选择,您可以使用:

    s = s.replace('<s>','[CLS]')  \
         .replace('</s>','[SEP]')  \
         .replace('<unk>','[UNK]')  \
         .replace('<pad>','[PAD]')  \
         .replace('<mask>','[MASK]')
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2021-02-10
      • 2020-08-10
      • 2021-06-14
      • 2021-08-10
      • 2021-12-15
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多