【发布时间】:2018-12-13 15:54:49
【问题描述】:
我用 50 万个句子(大约 6 万个)词训练了 Gensim W2V 模型,我想计算困惑度。
- 最好的方法是什么?
- 对于 60K 字,我如何检查什么才是合适的数据量?
谢谢
【问题讨论】:
标签: python nlp gensim word2vec language-model
我用 50 万个句子(大约 6 万个)词训练了 Gensim W2V 模型,我想计算困惑度。
谢谢
【问题讨论】:
标签: python nlp gensim word2vec language-model
如果要计算困惑度,首先要检索损失。
在 gensim.models.word2vec.Word2Vec 构造函数上,传递 compute_loss=True 参数 - 这样,gensim 将在训练时为您存储损失。
训练完成后,您可以调用get_latest_training_loss() 方法来检索损失。
由于skip-gram模型的交叉熵损失中的损失,损失的2次方会让你感到困惑。 (2**损失)
【讨论】: