【问题标题】:Derivative of activation function vs partial derivative wrt. loss function激活函数的导数与偏导数wrt。损失函数
【发布时间】:2019-05-18 14:47:45
【问题描述】:

人工智能中的一些术语让我感到困惑。反向传播中用到的导函数是激活函数导数还是损失函数导数

这些术语令人困惑:行为的派生词。函数,偏导wrt。损失函数??

我还是没弄好。

【问题讨论】:

    标签: machine-learning artificial-intelligence backpropagation loss-function activation-function


    【解决方案1】:

    当您优化模型时,您定义了一个损失函数。这通常表示某些训练数据的错误。

    通常使用基于梯度的优化来最小化此错误。通常,随机梯度下降 (SGD) 和相关方法(Adam、Adagrad 等)。

    损失函数的梯度,是由损失对模型中每个权重的偏导组成的向量。

    在每次迭代中,权重都会根据梯度的方向进行更新(记住我们是在最小化)。

    我猜你可能会感到困惑的原因是因为由于链式法则,在计算损失函数的梯度时,你需要区分激活函数。但请记住,这是因为链式法则。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2018-10-21
      • 2023-04-03
      • 1970-01-01
      • 2020-04-09
      • 2020-10-08
      • 1970-01-01
      • 2023-03-23
      • 2020-08-31
      相关资源
      最近更新 更多