【问题标题】:Backwards Propagation: are analytical second derivatives worth calculating?向后传播:解析二阶导数值得计算吗?
【发布时间】:2026-02-13 09:25:01
【问题描述】:

我理解我们通常不使用二阶导数信息的原因是,Hessian 可能非常大,层数和权重更多,导致计算成本高,因此首选无 Hessian 方法。我的问题是文献所指的计算费用是否是假设二阶导数是以数值方式计算的结果?因此,如果取而代之的是,被评估的目标函数产生了简洁的解析二阶导数,那么即使有大量隐藏层,基于牛顿的方法是否可以在计算上易于处理以估计 ANN 参数?还是纯粹是 Hessian 的大小 - 以及为更新算法(!)反转它的需要/费用 - 这是使用基于梯度的方法的决定因素?

【问题讨论】:

    标签: machine-learning neural-network mathematical-optimization hessian-matrix


    【解决方案1】:

    为了使用二阶优化方法,您应该计算 Hessian 矩阵的。有两个问题:

    1. Hessian 有 O(N2) 个参数,这使得计算变得更加困难(在内存和时间复杂度方面)。即使您在 O(1) 时间内计算每一个(即使用解析公式计算导数),您仍然需要计算它们的二次量。

    2. 矩阵求逆是quite slow 运算,它比仅计算所有Hessian 的值。

    【讨论】: