【发布时间】:2020-03-12 15:08:58
【问题描述】:
我正在尝试访问 spaCy BERT 字典,但我收到了来自模型的奇怪输出。例如,对于en_core_web_lg 模型,我可以像这样提取大约 130 万个令牌
nlp = spacy.load("en_core_web_lg")
tokens = [t for t in nlp.vocab]
当我为 en_trf_bertbaseuncased_lg 模型做同样的事情时,我只得到 478 个令牌,
nlp = spacy.load("en_trf_bertbaseuncased_lg")
tokens = [t for t in nlp.vocab]
根据BERT paper,应该有大约 30k 个令牌。有没有办法可以通过nlp.vocab 或custom component attributes 访问它们?
【问题讨论】:
标签: python nlp spacy spacy-transformers