softmax
为激活函数,C = softmax(o)
为输出,真实标签为y
, 用交叉熵作为损失函数L
,给出损失函数定义,并且给出损失函数L
对o
的求导
交叉熵损失函数定义如下:
其中,表示真实标签,
表示模型的预测输出,
表示类别数。
假设模型的输出为,则将
输入
softmax
函数得到预测输出:
将预测输出代入交叉熵损失函数中,可得到:
接下来,我们对对
求导数:
当时,
当时,
因此,
综上所述,我们可以使用交叉熵损失函数和softmax
作为激活函数,并且可以使用上述公式计算梯度,以便进行反向传播和模型参数更新。
接着上面的假设,若 :
那么根据链式法则,损失L
对p
的求导结果为
损失L
对b
的求导结果为