【问题标题】:spaCy BERT dictionaryspaCy BERT 词典
【发布时间】:2020-03-12 15:08:58
【问题描述】:

我正在尝试访问 spaCy BERT 字典,但我收到了来自模型的奇怪输出。例如,对于en_core_web_lg 模型,我可以像这样提取大约 130 万个令牌

nlp = spacy.load("en_core_web_lg") 
tokens = [t for t in nlp.vocab]

当我为 en_trf_bertbaseuncased_lg 模型做同样的事情时,我只得到 478 个令牌,

nlp = spacy.load("en_trf_bertbaseuncased_lg") 
tokens = [t for t in nlp.vocab]

根据BERT paper,应该有大约 30k 个令牌。有没有办法可以通过nlp.vocabcustom component attributes 访问它们?

【问题讨论】:

    标签: python nlp spacy spacy-transformers


    【解决方案1】:

    我对像“en”这样的标准模型也有类似的问题。有趣的是长度完全一样。

    import spacy
    nlp = spacy.load("en")
    len([t for t in nlp.vocab])
    478
    

    原来像“en”这样的模型不包含真正的向量(见https://github.com/explosion/spaCy/issues/1520)。所以我想这也是伯特的情况。

    【讨论】:

      猜你喜欢
      • 2022-10-13
      • 2020-09-08
      • 2020-12-17
      • 1970-01-01
      • 2020-04-18
      • 2020-09-05
      • 2021-01-16
      • 2018-07-01
      • 1970-01-01
      相关资源
      最近更新 更多