什么是梯度消失?

梯度消失(Vanishing Gradient)是指在深度神经网络的反向传播训练过程中,梯度值随着网络层数的增加而逐层减小至接近零的现象。这主要源于某些激活函数(如sigmoid或tanh)在饱和区域输出变化微小,导致梯度在链式法则中指数级 […]

什么是残差连接?

残差连接(Residual Connection)是深度神经网络中的一种核心架构设计,它通过在网络层间引入“捷径”(shortcut),将输入直接添加到某一层的输出上,形成残差块。具体而言,给定输入x,经过非线性变换层得到函数F(x),则输 […]