计算word2vec模型的perplexity

【问题标题】：Calculate perplexity of word2vec model计算word2vec模型的perplexity
【发布时间】：2018-12-13 15:54:49
【问题描述】：

我用 50 万个句子（大约 6 万个）词训练了 Gensim W2V 模型，我想计算困惑度。

最好的方法是什么？
对于 60K 字，我如何检查什么才是合适的数据量？

谢谢

【问题讨论】：

标签： python nlp gensim word2vec language-model

【解决方案1】：

如果要计算困惑度，首先要检索损失。在 gensim.models.word2vec.Word2Vec 构造函数上，传递 compute_loss=True 参数 - 这样，gensim 将在训练时为您存储损失。训练完成后，您可以调用get_latest_training_loss() 方法来检索损失。

由于skip-gram模型的交叉熵损失中的损失，损失的2次方会让你感到困惑。 (2**损失)

【讨论】：

我丢失了 36672808.0 有意义吗？
您进行过任何培训吗？告诉我你的词汇中的困惑度和总词数，它会更容易确定是否有意义