增加批量大小会减少可训练参数答案

【问题标题】：Increasing batch size decreases trainable parameters增加批量大小会减少可训练参数
【发布时间】：2020-07-18 04:48:23
【问题描述】：

我正在使用 LSTM+attention 层进行句子分类任务。我观察到，在简单的 LSTM 模型中，我的总可训练参数为 14705，批量大小为 64，但是当我将注意力层与 LSTM 一起使用时，对于相同的批量大小，可训练参数减少到 230。而批量大小为 4 ，它增加到 3077。此外，由于注意力层的批大小为 64，它仅在 epochs 中增加 1。

这怎么可能？

这是批量大小为 64 的注意力层的屏幕截图

这是批量大小为 64 的 LSTM 层的屏幕截图。

【问题讨论】：

标签： python-3.x tensorflow keras nlp

【解决方案1】：

我认为您的意思是数据的数量，而不是参数。

更大的批次自然会导致更少的批次。

100 句 = 1 个批次大小 * 100 个批次 = 10 个批次大小 * 10 个批次

【讨论】：

不，我不是这个意思。对于我的 Bi-LSTM 模型，batch size=64，有 14705 个句子在训练中，对于相同的 batch size 和 attention layer，句子的数量只有 230。这怎么可能？