【发布时间】:2018-01-07 07:06:24
【问题描述】:
我有一个使用 Python 的 Gensim 库训练的 Word2vec 模型。我有一个标记化列表,如下所示。词汇量是 34,但我只给出 34 个中的几个:
b = ['let',
'know',
'buy',
'someth',
'featur',
'mashabl',
'might',
'earn',
'affili',
'commiss',
'fifti',
'year',
'ago',
'graduat',
'21yearold',
'dustin',
'hoffman',
'pull',
'asid',
'given',
'one',
'piec',
'unsolicit',
'advic',
'percent',
'buy']
型号
model = gensim.models.Word2Vec(b,min_count=1,size=32)
print(model)
### prints: Word2Vec(vocab=34, size=32, alpha=0.025) ####
如果我尝试通过对列表中的一个单词进行model['buy'] 来获得相似度分数,我会得到 p>
KeyError:“词汇表中没有‘购买’这个词”
你们能否建议我做错了什么以及检查模型的方法是什么,该模型可进一步用于训练 PCA 或 t-sne 以可视化形成主题的相似词?谢谢你。
【问题讨论】:
标签: python nlp gensim word2vec topic-modeling