Softmax Regression多分类中的求导及参数更新

Softmax Regression是Logistic Regression的拓展，主要用于多分类问题。Softmax Regression一般与交叉熵损失函数结合使用，但是关于交叉熵损失函数的求导和参数更新资料比较少，讲的也不是让我很满意，所以决定自己写一篇，就当是总结一下自己的认识，和大家一起交流进步。

首先是假设函数：

假设有3个目标类别，直接使用Softmax Regression进行分类，注意这里和神经网络中对Softmax Regression的应用有所不同，相当于一个没有隐层的神经网络，则对于输入向量x来说预测为第1、2、3类的概率为：

Softmax Regression多分类中的求导及参数更新

接下来介绍交叉熵损失函数，交叉熵刻画的是两个概率分布之间的距离，给定两个概率分布p和q，通过q来表示p的交叉熵为：

Softmax Regression多分类中的求导及参数更新

从交叉熵的公式可以看出交叉熵函数不是对称的，它刻画的是通过概率分布q来表达概率分布p的困难程度，因为正确答案是希望看到的结果，所以当使用交叉熵作为损失函数时，p代表的是正确答案，q代表的是预测值。假设有一个三分类问题，某个样例的正确答案是(1, 0, 0)，经过Softmax回归之后的预测值为(0.5, 0.4, 0.1)，那么这个预测和正确答案之间的交叉熵为：

Softmax Regression多分类中的求导及参数更新