【发布时间】:2021-11-02 19:58:52
【问题描述】:
从 huggingface 使用 BertTokenizer 的想法真的让我很困惑。
-
当我使用时
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased") tokenizer.encode_plus("Hello")
结果是不是和我通过的时候有点类似 将“Hello”表示为学习嵌入矩阵的 one-hot 向量?
-
怎么样
BertTokenizer.from_pretrained("bert-base-uncased")
不同于
BertTokenizer.from_pretrained("bert-**large**-uncased")
和其他预训练的?
【问题讨论】:
标签: deep-learning nlp word-embedding huggingface-tokenizers