【问题标题】:Perplexity calculations rise between each significantly drop每次显着下降之间的困惑度计算都会上升
【发布时间】:2017-06-03 12:03:43
【问题描述】:

我正在使用 LSTM 和 tensorflow 的翻译模型训练会话代理。我使用批量训练,导致每个 epoch 开始后训练数据的困惑度显着下降。这种下降可以通过我批量读取数据的方式来解释,因为我保证我的训练数据中的每个训练对在每个 epoch 都被处理一次。当新的 epoch 开始时,模型在之前的 epoch 中所做的改进将在再次遇到训练数据时显示其收益,在图中表示为下降。其他批量方法,例如 tensorflow 的翻译模型中使用的方法,不会导致相同的行为,因为它们的方法是将整个训练数据加载到内存中,并从中随机选择样本。

步骤,困惑

  • 330000, 19.36
  • 340000, 19.20
  • 350000, 17.79
  • 360000, 17.79
  • 370000, 17.93
  • 380000, 17.98
  • 390000, 18.05
  • 400000, 18.10
  • 410000, 18.14
  • 420000, 18.07
  • 430000, 16.48
  • 440000, 16.75

(从 perplexity 中截取的小片段显示在 350000 和 430000 处有所下降。在下降之间,perplexity 略有上升)

但是,我的问题是关于下跌后的趋势。从图中可以清楚地看出,困惑度略有上升(对于 step ~350000 之后的每个 epoch),直到下一次下降。有人可以就为什么会发生这种情况给出答案或理论吗?

【问题讨论】:

    标签: machine-learning tensorflow training-data perplexity


    【解决方案1】:

    这将是典型的过度拟合。

    【讨论】:

      猜你喜欢
      • 2020-03-31
      • 2021-01-25
      • 2019-01-15
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2013-11-20
      • 1970-01-01
      相关资源
      最近更新 更多