【问题标题】:How does language model evaluation work with unknown words?语言模型评估如何处理未知单词?
【发布时间】:2017-10-12 15:03:12
【问题描述】:

因此,为了构建语言模型,超出词汇量的频率较低的单词被替换为“UNK”。

我的问题是,如何评估这种基于“UNK”评估概率的语言模型?假设我们想在测试集上评估这种语言模型的困惑度,对于模型未知的单词,我们得到的概率是基于未知单词的“包”来评估的。

这似乎有问题,因为如果我们将词汇量设置为 1,即所有单词都是未知的,那么这个无所事事的语言模型的困惑度将是 1。

【问题讨论】:

    标签: language-model perplexity


    【解决方案1】:

    这个文件很好地解释了这个问题:

    https://web.stanford.edu/~jurafsky/slp3/4.pdf

    简而言之,困惑度只能在具有相同词汇的语言模型之间进行比较。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-03-09
      • 1970-01-01
      • 1970-01-01
      • 2012-09-27
      • 1970-01-01
      • 2023-03-03
      相关资源
      最近更新 更多