【发布时间】:2020-07-18 04:48:23
【问题描述】:
我正在使用 LSTM+attention 层进行句子分类任务。我观察到,在简单的 LSTM 模型中,我的总可训练参数为 14705,批量大小为 64,但是当我将注意力层与 LSTM 一起使用时,对于相同的批量大小,可训练参数减少到 230。而批量大小为 4 ,它增加到 3077。此外,由于注意力层的批大小为 64,它仅在 epochs 中增加 1。
这怎么可能?
这是批量大小为 64 的注意力层的屏幕截图
这是批量大小为 64 的 LSTM 层的屏幕截图。
【问题讨论】:
标签: python-3.x tensorflow keras nlp