【问题标题】:Increasing batch size decreases trainable parameters增加批量大小会减少可训练参数
【发布时间】:2020-07-18 04:48:23
【问题描述】:

我正在使用 LSTM+attention 层进行句子分类任务。我观察到,在简单的 LSTM 模型中,我的总可训练参数为 14705,批量大小为 64,但是当我将注意力层与 LSTM 一起使用时,对于相同的批量大小,可训练参数减少到 230。而批量大小为 4 ,它增加到 3077。此外,由于注意力层的批大小为 64,它仅在 epochs 中增加 1。

这怎么可能?

这是批量大小为 64 的注意力层的屏幕截图

这是批量大小为 64 的 LSTM 层的屏幕截图。

【问题讨论】:

    标签: python-3.x tensorflow keras nlp


    【解决方案1】:

    我认为您的意思是数据的数量,而不是参数。

    更大的批次自然会导致更少的批次。

    100 句 = 1 个批次大小 * 100 个批次 = 10 个批次大小 * 10 个批次

    【讨论】:

    • 不,我不是这个意思。对于我的 Bi-LSTM 模型,batch size=64,有 14705 个句子在训练中,对于相同的 batch size 和 attention layer,句子的数量只有 230。这怎么可能?
    猜你喜欢
    • 2022-12-04
    • 2019-10-08
    • 2018-07-25
    • 1970-01-01
    • 2021-06-17
    • 2021-07-30
    • 1970-01-01
    • 1970-01-01
    • 2018-05-10
    相关资源
    最近更新 更多