网站首页标题怎么写,网易云课堂的网站建设特点,wordpress 自豪地采用wordpress,有哪些高端的网站本篇文章收录于专栏【机器学习】
以下是激活函数系列的相关的所有内容:
一文搞懂激活函数在神经网络中的关键作用
逻辑回归#xff1a;Sigmoid函数在分类问题中的应用 整流线性单位函数#xff08;Rectified Linear Unit, ReLU#xff09;#xff0c;又称修正线性单元Sigmoid函数在分类问题中的应用 整流线性单位函数Rectified Linear Unit, ReLU又称修正线性单元是一种人工神经网络中常用的激活函数通常指代以斜坡函数及其变种为代表的非线性函数。 ReLU ( x ) max ( 0 , x ) \text{ReLU}(x) \max(0, x) ReLU(x)max(0,x) 当输入 x 0 x 0 x0 时输出等于输入当输入 x ≤ 0 x \leq 0 x≤0 时输出为 0。 传统的激活函数如 Sigmoid 和 Tanh 存在梯度消失和计算效率较低的问题。ReLU 函数解决了这些问题具有计算简单、不易出现梯度消失等特点。
应用场景
神经网络隐藏层引入非线性使网络能够学习复杂的特征表示。输出层在需要输出非负值的回归任务中使用。特定任务广泛应用于图像识别、自然语言处理等领域如 CNN 和 RNN。
函数特点
控制输出范围输出值限制在 [ 0 , ∞ ) [0, \infty) [0,∞)防止梯度消失或爆炸。引入稀疏性许多输出为零减少模型复杂度提高计算效率防止过拟合。提供可导性其导数为 ReLU ′ ( x ) { 1 if x 0 0 if x ≤ 0 \text{ReLU}(x) \begin{cases} 1 \text{if } x 0 \\ 0 \text{if } x \leq 0 \end{cases} ReLU′(x){10if x0if x≤0 优点 计算简单计算效率高。不易出现梯度消失问题。引入稀疏性有助于减少模型复杂度提高计算效率防止过拟合。 缺点 神经元死亡当 x ≤ 0 x \leq 0 x≤0 时导数为 0可能导致神经元死亡。输出不以 0 为中心可能影响梯度稳定性。
ReLU 函数的两个变体
Leaky ReLU是 ReLU 的一个变体在输入小于等于 0 时有一个小的非零斜率 α \alpha α从而避免了神经元死亡问题 Leaky ReLU ( x ) { x if x 0 α x if x ≤ 0 \text{Leaky ReLU}(x) \begin{cases} x \text{if } x 0 \\ \alpha x \text{if } x \leq 0 \end{cases} Leaky ReLU(x){xαxif x0if x≤0 α \alpha α 是一个小常数通常取 0.01。在反向传播过程中对于LeakyReLU激活函数输入小于 0 0 0 的部分也可以计算得到梯度(ReLU的值为0)这样就避免了梯度方向锯齿问题。 ELU即指数线性单元Exponential Linear Unit解决神经网络训练中的一些问题如梯度消失、非连续性以及输出均值偏离零等问题。
理想的激活函数应满足两个条件
输出的分布是零均值的加快训练速度。激活函数是单侧饱和的更好的收敛。
LeakyReLU满足1不满足2而ReLU满足2不满足1ELU 都满足。
ELU在 x ≤ 0 x \leq 0 x≤0 时有平滑的指数衰减解决神经元死亡问题数学表达式为 ELU ( x ) { x if x 0 α ( e x − 1 ) if x ≤ 0 \text{ELU}(x) \begin{cases} x \text{if } x 0 \\ \alpha (e^x - 1) \text{if } x \leq 0 \end{cases} ELU(x){xα(ex−1)if x0if x≤0 特点
缓解梯度消失问题当 ( x 0 )ELU 函数的行为类似于ReLU允许直接传递输入从而避免了梯度消失的问题。 对负值的处理更加温和与ReLU不同的是当 ( x 0 )ELU 不是简单地将它们置为0而是通过指数函数给出一个非零的输出这有助于保持网络中的信息流动。 输出的均值更接近于零由于其在负区间内的特性ELU 能够帮助神经网络学习到更具有鲁棒性的特征表示并且倾向于产生更接近于零的输出均值这对于加速学习过程是有益的。
ELU 的导数在 x 0 x 0 x0 时为1在 x 0 x 0 x0 时为 α ⋅ e x \alpha \cdot e^x α⋅ex。特别地在 x 0 x 0 x0 处通常认为其导数是连续的取左侧或右侧极限值之一。
ELU 适用于需要减少偏移量并加快学习速度的任务但计算上比ReLU稍微复杂一些因为它涉及到指数运算。因此在设计深度学习模型时需权衡这些因素来决定最适合的激活函数。