【问题标题】:Is BertTokenizer similar to word embedding?BertTokenizer 和词嵌入类似吗?
【发布时间】:2021-11-02 19:58:52
【问题描述】:

从 huggingface 使用 BertTokenizer 的想法真的让我很困惑。

  1. 当我使用时

    tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
    tokenizer.encode_plus("Hello")
    

结果是不是和我通过的时候有点类似 将“Hello”表示为学习嵌入矩阵的 one-hot 向量?

  1. 怎么样

    BertTokenizer.from_pretrained("bert-base-uncased") 
    

不同于

BertTokenizer.from_pretrained("bert-**large**-uncased") 

和其他预训练的?

【问题讨论】:

    标签: deep-learning nlp word-embedding huggingface-tokenizers


    【解决方案1】:

    encode_plusencode 函数对您的文本进行标记,并以正确的 BERT 模型输入格式准备它们。因此,您可以看到它们类似于您提供的示例中的 one-hot 向量。
    encode_plus 返回一个由 input_idstoken_type_idsattention_mask 组成的 BatchEncoding。

    预训练模型因编码器层数而异。 base 模型有 12 个编码器,large 模型有 24 层编码器。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2018-05-18
      • 1970-01-01
      • 2020-06-18
      • 2019-11-17
      • 1970-01-01
      • 2019-05-17
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多