【发布时间】:2026-02-13 09:25:01
【问题描述】:
我理解我们通常不使用二阶导数信息的原因是,Hessian 可能非常大,层数和权重更多,导致计算成本高,因此首选无 Hessian 方法。我的问题是文献所指的计算费用是否是假设二阶导数是以数值方式计算的结果?因此,如果取而代之的是,被评估的目标函数产生了简洁的解析二阶导数,那么即使有大量隐藏层,基于牛顿的方法是否可以在计算上易于处理以估计 ANN 参数?还是纯粹是 Hessian 的大小 - 以及为更新算法(!)反转它的需要/费用 - 这是使用基于梯度的方法的决定因素?
【问题讨论】:
标签: machine-learning neural-network mathematical-optimization hessian-matrix