tensorflow GradientDescentOptimizer 函数逐层训练参数？

【问题标题】：tensorflow GradientDescentOptimizer function trains the paramter layer by layer?tensorflow GradientDescentOptimizer 函数逐层训练参数？
【发布时间】：2016-03-22 10:19:46
【问题描述】：

tensorflow 的 GradientDescentOptimizer 是逐层训练内部网络还是只使用反向传播等常规方法。对于 GradientDescentOptimizer，网络可以有多深？

【问题讨论】：

标签： tensorflow deep-learning

【解决方案1】：

它只是使用标准的后退道具，而不是一层一层的。

理论上，网络可以在内存中尽可能深。但它越深，训练所需的时间就越长，连续层的用处就越少。在某一点上，额外的层甚至会开始增加训练数据的误差。

【讨论】：

如果那只是标准的back prop，为什么现在我们可以得到比10年前更好的结果？感觉很奇怪。
据我了解，更大的网络，更好的数据，更好的计算能力，但是这种问题超出了 SO 的范围