【发布时间】:2018-04-18 11:02:16
【问题描述】:
在 keras 的 documentation 中,没有关于如何为 LSTM 层实际实现 dropout 的信息。
但是,有一个指向论文“A Theoretically Grounded Application of Dropout in Recurrent Neural Networks”的链接,这让我相信 dropout 是按照上述论文中的描述实现的。
也就是说,对于层正在处理的时间序列中的每个时间步,使用相同的 dropout 掩码。
查看source code,在我看来LSTMCell.call 被迭代调用,时间序列中的每个时间步长一次,每次调用时都会生成一个新的丢弃掩码。
我的问题是:
要么我误解了 keras 的代码,要么 keras 文档中对论文的引用具有误导性。是哪个?
【问题讨论】:
标签: machine-learning keras keras-layer