【发布时间】:2020-04-18 07:24:42
【问题描述】:
我正在尝试查找大型英语模型的词汇量,即en_core_web_lg,我找到了三种不同的信息来源:
-
spaCy 的文档:685k 键,685k 唯一向量
-
nlp.vocab.__len__(): 1340242 #(词位数) -
len(vocab.strings): 1476045
这三者有什么区别?我无法在文档中找到答案。
【问题讨论】:
标签: nlp documentation spacy vocabulary