BertTokenizer 和词嵌入类似吗？答案

【问题标题】：Is BertTokenizer similar to word embedding?BertTokenizer 和词嵌入类似吗？
【发布时间】：2021-11-02 19:58:52
【问题描述】：

从 huggingface 使用 BertTokenizer 的想法真的让我很困惑。

当我使用时

tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
tokenizer.encode_plus("Hello")

结果是不是和我通过的时候有点类似将“Hello”表示为学习嵌入矩阵的 one-hot 向量？

怎么样

BertTokenizer.from_pretrained("bert-base-uncased")

不同于

BertTokenizer.from_pretrained("bert-**large**-uncased")

和其他预训练的？

【问题讨论】：

标签： deep-learning nlp word-embedding huggingface-tokenizers

【解决方案1】：

encode_plus 和 encode 函数对您的文本进行标记，并以正确的 BERT 模型输入格式准备它们。因此，您可以看到它们类似于您提供的示例中的 one-hot 向量。
encode_plus 返回一个由 input_ids、token_type_ids 和 attention_mask 组成的 BatchEncoding。

预训练模型因编码器层数而异。 base 模型有 12 个编码器，large 模型有 24 层编码器。

【讨论】：