【问题标题】:Calculate perplexity of word2vec model计算word2vec模型的perplexity
【发布时间】:2018-12-13 15:54:49
【问题描述】:

我用 50 万个句子(大约 6 万个)词训练了 Gensim W2V 模型,我想计算困惑度。

  1. 最好的方法是什么?
  2. 对于 60K 字,我如何检查什么才是合适的数据量?

谢谢

【问题讨论】:

    标签: python nlp gensim word2vec language-model


    【解决方案1】:

    如果要计算困惑度,首先要检索损失。 在 gensim.models.word2vec.Word2Vec 构造函数上,传递 compute_loss=True 参数 - 这样,gensim 将在训练时为您存储损失。 训练完成后,您可以调用get_latest_training_loss() 方法来检索损失。

    由于skip-gram模型的交叉熵损失中的损失,损失的2次方会让你感到困惑。 (2**损失)

    【讨论】:

    • 我丢失了 36672808.0 有意义吗?
    • 您进行过任何培训吗?告诉我你的词汇中的困惑度和总词数,它会更容易确定是否有意义
    猜你喜欢
    • 2020-07-05
    • 2019-09-03
    • 2021-07-10
    • 2014-03-29
    • 1970-01-01
    • 2019-05-26
    • 2014-04-03
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多