【发布时间】:2019-01-21 12:03:10
【问题描述】:
我正在尝试使用 gensim 训练 word2vec 模型。这是我正在使用的线路:
model = Word2Vec(training_texts, size=50, window=5, min_count=1, workers=4, max_vocab_size=20000)
其中 training_texts 是表示单词的字符串列表的列表。我使用的语料库有 8924372 个句子,141,985,244 个单词和 1,531,477 个唯一单词。训练后,模型中只存在 15642 个词:
len(list(model.wv.vocab))
# returns 15642
模型不应该有 20,000 个单词,就像指定的 max_vocab_size 一样吗?为什么它缺少大部分训练词?
谢谢!!
【问题讨论】: