Sigmoid，tanh，Relu，Leaky ReLu，ELU，GeLu 激活函数理解

全栈程序员-站长 • 2026年3月17日下午5:36 • 未分类 • 阅读 1

Sigmoid，tanh，Relu，Leaky ReLu，ELU，GeLu 激活函数理解为什么需要激活函数 SigmoidtanhR GELUS 参考文献添加链接描述添加链接描述

1 神经网络为什么需要非线性激活函数？

2 Sigmoid

$f (x)$ 的导数数学表达式： $f(x)^{‘}=f(x)(1-f(x))$ 函数导数图形：
在这里插入图片描述
python实现如下：

import numpy as np def sigmoid(x，derivative=False): if derivative == True: return x * (1 - x) return 1 / (1+np.exp(-x))

2.1缺陷

2.1.1 梯度消失

我们知道 $f (x) = s i g m o i d (x)$ 其中 $max f(x)^{‘}=1/4$ ，根据BP算法中的链式法则，当网络很深的时候，小于1的数（1/4）累乘会趋向于0，如下图所示：
在这里插入图片描述
我们令 $\theta_u(t)$ 表示第 $t$ 层神经元 $u$ 的残差， $f_v(x)$ 表示为神经元v经过激活函数 $f (x)$ 的输出，则有如下公式：
$\frac{\partial\theta_v(t-q)}{\partial\theta_u(t)}=\begin{cases} f^{‘}_v(net_v(t-1))w_{uv} \quad if \text{ }q=1 \\ f^{‘}_v(net_v(t-q))\sum_{l=1}^n\frac{\partial\theta_l(t-q+1)}{\partial\theta(t)}w_{lv} \quad else \end{cases}$
则 $\begin{vmatrix} \frac{\partial\theta(t-q)}{\partial\theta(t)}\end{vmatrix}=\begin{vmatrix}\prod_{m=1}^qWF(Net(t-m))\end{vmatrix} \le (\begin{vmatrix}W\end{vmatrix}max_{Net}\{\begin{vmatrix}F^{‘}(Net)\end{vmatrix}\})^q$
其中 $maxf^{‘}=1/4$ ;则当 $\begin{vmatrix}W\end{vmatrix} < 4$ 时候，上式子将会是一个小于1的值的 $q$ 次乘方，则模型越往前传播，梯度会越来越小，甚至接近0，出现梯度消失现象，网络中的参数没法学习更新的情况。

2.2.2 Output非zero-centered

sigmoid函数，将输出值映射到 (0,1)之间，都是正数，没有负数，这导致网络的学习表达能力将会受到限制。

3 Tanh

python实现如下：

def tanh(x, derivative=False): if devivative == True: return (1 - (x  2)) return np.tanh(x)

3.1 缺陷

修正了sigmoid函数输出非0为中心的问题，但是还是不能解决梯度消失的问题

4 ReLu

这里需要说明的一点是，ReLu是非线性函数，因为导数不是一个常数，虽然看着简单，但是ReLu函数是分段函数，组合可以逼近任意函数。
ReLu函数，时间和空间复杂度最低，也不需要更高的指数运算，而且能够缓解梯度消失问题。

4.1 缺陷

在这里插入图片描述
如上图所示，假设我们用平方和损失函数： $\frac {1}{2} \sum_{j=1}^{M}(y_j-t_j)^2$ 其中 $t =\{t_1,…,t_m\}$ 是一个M维度的向量，代表的是每个样本的真实label标签。 $y_j$ 是输出预测的第 $j$ 个输出label值。BP反向传播更新参数梯度如下公式：
step1 :计算神经元输出值的导数
$\frac {\partial E} {\partial y_j} = y_j-t_j$
step2: 计算神经元输入值的导数（通常称为“残差”）
$\frac {\partial E}{\partial u_j}=\frac {\partial E} {\partial y_j}. \frac {\partial y_j} {\partial u_j}=(y_j-t_j).f(x)^{‘}=(y_j-t_j).y_j(1-y_j)= e_j$
若 $f (x)$ 为sigmoid激活函数
step3: 计算权重梯度
$\frac {\partial E}{\partial w_{ij}^{‘}}=\frac {\partial E} {\partial u_j}. \frac {\partial u_j} {\partial w_{ij}^{‘}}=e_j.h_i$ 也就是第 $n$ 层的第 $i$ 个神经元与第 $n + 1$ 层的第 $j$ 个神经元连接的权重 $w_{ij}^{‘}$ 的每一次更新的梯度 $\Delta w_{ij}^{‘}$ 就是第n层的第 $i$ 个神经元的输出值乘以第n+1层的第 $j$ 个神经元的残差
若输入 $\le 0$ 则经过ReLu激活函数后，神经元的输出为0，所谓的“死忙问题”，那么连接的该神经元的权重梯度为0，导致权重无法更新问题，神经元处于死忙状态。

5 Leaky ReLu

6 ELU

FAST AND ACCURATE DEEP NETWORK LEARNING BY
EXPONENTIAL LINEAR UNITS

数学表达式：
$\begin {cases} x \quad x>0 \\ a(e^x-1) \quad x \le 0 \end {cases}$
函数图形：

导数数学表达式：
$f(x)^{‘}= \begin {cases} 1 \quad x>0 \\ a+f(x) \quad x \le 0 \end {cases}$
导数图形：
在这里插入图片描述
其中 $a$ 是一个很小的常数。整体来看，Leaky ReLu，ELU以及其它的一些变体，都是在保证ReLu激活函数优势的情况下，缓解神经元”死忙”问题，从ELU公式可以看出， $x$ 小于0的部分，用一个指数变化形式，相对复杂一些，计算开销比Leaky ReLu要高，但输出更加平滑。

7 GeLu

7.1 基础知识回顾

7.1.1 正态分布

正态分布又名高斯分布，是一个非常常见的连续概率分布。若随机变量 $X$ 服从一个位置参数 $\mu$ 、尺度参数 $\sigma$ 的正态分布，记为： $N(\mu,\sigma^2)$ 则其概率密度函数为 $f(x)=\frac{1}{\sigma \sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$
正态分布的数学期望值 $\mu$ 等于位置参数，决定了分布的位置，其方差 $\sigma^2$ 的开平方或标准差 $\sigma$ 等于尺度参数，决定了分布的幅度。我们通常说的标准正态分布是位置参数 $\mu=0$ ，尺度参数 $\sigma^2=1$ 的正态分布，下图展示了不同 $\mu$ 和 $\sigma$ 的正态分布图
在这里插入图片描述
拉普拉斯在误差分析实验中使用了正态分布，勒让德于1805年引入最小二乘法这一重要方法，而高斯则宣传在1794年就使用了该方法，并通过假设误差服从正态分布。
有几种不同的方法用来说明一个随机变量，最直观的方法是概率密度函数，这种方法能够表示随机变量每个取值多大的可能性。

7.1.2 概率密度函数

正态分布的概率密度函数均值为 $\mu$ ，方差为 $\sigma$ 是高斯函数的一个实例：
$f(x;\mu,\sigma)=\frac{1}{\sigma\sqrt{2\pi}}exp(-\frac{(x-\mu)^2}{2\sigma^2})$ 如果一个随机变量 $X$ 服从这个分布，我们写作 $N(\mu,\sigma^2)$ 。如果 $\mu=0$ 并且 $\sigma=1$ ，这个分布被称为标准正态分布，这个分布简化为： $f(x)=\frac{1}{\sqrt{2\pi}}exp(-\frac{x^2}{2})$ ，下图给出了不同参数的正态分布的函数图：
在这里插入图片描述

7.1.3 累积分布函数

累积分布函数是指随机变量 $X$ 小于或等于 $x$ 的概率，用概率密度函数表示为 $F(x;\mu,\sigma)=\frac{1}{\sigma\sqrt{2\pi}}\int^x_{-\infty} exp(-\frac{ {(t-\mu)}^2}{2\sigma^2})dt$
标准正态分布的累积分布函数习惯上记为 $Φ$ ，它仅仅是 $\mu=0$ , $\sigma=1$ 时的值，
$Φ(x)=F(x;0,1)=\frac{1}{\sqrt{2\pi}}\int^x_{-\infty} exp(-\frac{ {t}^2}{2})dt$
正态分布的累积分布函数能够由一个叫做误差函数的特殊函数表示：
$Φ(z)=\frac{1}{2}\begin{bmatrix}1+erf(\frac{z-\mu}{\sigma\sqrt{2}}) \end{bmatrix}$
标准正态分布的累积分布函数习惯上记为Φ，它仅仅是指 $\mu=0，\sigma=1$ 时的值，用误差函数表示的公式简化为：
$Φ(z)=\frac{1}{2}\begin{bmatrix}1+erf(\frac{z}{\sqrt{2}}) \end{bmatrix}$
其中 $e r f (x)$ ，称为误差函数（也称为高斯误差函数），它的定义如下：
$erf(x)=\frac{1}{\sqrt\pi}\int^x_{-x}e^{-t^2}dt=\frac{2}{\sqrt\pi}\int_0^xe^{-t^2}dt$
累积分布函数图形如下：
在这里插入图片描述

7.1.4 Φ(x)与erf(x)函数关系公式推导

$Φ(x)=\frac{1}{\sqrt{2\pi}}\sum_{-\infty}^xe^{-\frac{t^2}{2}}dt=\frac{\sqrt{2}}{\sqrt{2\pi}}\sum_{-\infty}^{x}e^{-(\frac{t}{\sqrt{2}})^2}d\frac{t}{\sqrt{2}}$

$=\frac{1}{\pi}\sum_{-\infty}^{\frac{x}{\sqrt{2}}}e^{-z^2}dz=\frac{1}{\pi}\sum_{-\infty}^0e^{-z^2}dz+\frac{1}{\pi}\sum_{0}^{\frac{x}{\sqrt{2}}}e^{-z^2}dz$

$=\frac{1}{2}+\frac{1}{2}erf(\frac{x}{\sqrt{\pi}})=\frac{1}{2}\begin{bmatrix}1+erf(\frac{x}{\sqrt{2}})\end{bmatrix}$

8 GeLu激活函数

8.1 GeLu激活函数的直观理解

GeLu函数综合了dropout和ReLu的特色，从上面公式我们也可以看出，从ReLu, Leakly ReLu，ELU等，都是在对输入神经元乘以1或者0或者一个 $a$ 常量进行变化，当 $\ge 0$ 的时候，以上三个函数都是乘以1作为神经元的输出，当 $\le 0$ 的时候，则乘以0或者 $a$ 作为神经元的输出。
但GeLu是对 $x$ 乘以标准正态分布的累积分布函数，根据 $x$ 的输入，平滑的进行变化，随着x变小， $Φ (x)$ 变小，则神经元的输入 $x$ 会以大概率的情况下“丢弃”，整个过程相对ReLu激活函数更smooth

8.2 GeLu函数的公式推导

误差函数与标准正态分布的积分累积分布函数的关系为： $Φ(x)=\frac{1}{2}\begin{bmatrix}1+erf(\frac{x}{\sqrt{2}}) \end{bmatrix}$
从上述(1)和(2)公式可以看出，需要证明：
$erf(\frac{x}{\sqrt2}) \approx tanh(\sqrt{\frac{2}{\pi}}(x+ax^3))$ 其中 $\approx 0.044715$

证明如下：
泰勒级数
在数学上，对于一个实数或复数 $a$ 领域上，以实数作为变量或以复数作为变量的函数，并且是无穷可微的函数 $f (x)$ ，它的泰勒级数是以下这种形式的幂级数：
$f(x)=\sum_{n=0}^{\infty}\frac{f^{(n)}(a)}{n!}(x-a)^n$ 这里 $n!$ 表示 $n$ 的阶乘，而 $f^{(n)}(a)$ 表示函数 $f$ 在点 $a$ 处的 $n$ 阶导数，如果 $a = 0$ ，也可以把这个级数称为麦克劳林级数。
指数函数 $e^x$ 的等价幂级数:
$e^x=1+\sum_{n=1}^{\infty}\frac{x^n}{n!}=1+x+\frac{x^2}{2!}+\frac{x^3}{3!}+\frac{x^4}{4!}+…$
$t a n h (x)$ 的泰勒级数： $tanh(x)=x-\frac{x^3}{3}+o(x^3)$
$e r f (x)$ 的泰勒级数： $erf(x)=\frac{2}{\sqrt{\pi}}(x-\frac{x^3}{3})+o(x^3)$
$tanh(\sqrt{\frac{2}{\pi}}(x+ax^3)) = \sqrt{\frac{2}{\pi}}(x+(a-\frac{2}{3\pi})x^3)+o(x^3) \text{ }\text{ }\text{（3） }$
$erf(\frac{x}{\sqrt{2}})=\sqrt{\frac{2}{\pi}}(x-\frac{x^3}{6})+o(x^3) \text{ }\text{ }\text{（4） }$
令公式（3）和公式（4）相等，则 $\approx 0.0$ ，与论文中 $a$ 为0.044715十分接近。

bert中的glue函数实现如下：

def gelu(x): cdf = 0.5 * (1.0 + tf.tanh( (np.sqrt(2 / np.pi) * (x + 0.044715 * tf.pow(x,3)))) return x * cdf

说明：本文图片素材来源Casper Hansen博文以及wikipedia

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/221651.html原文链接：https://javaforall.net

0 0

关于作者

全栈程序员-站长

133.5K 文章

3 粉丝

本网站汇聚当前互联网主流语音，持续更新，欢迎关注公众号“全栈程序员社区”

【web前端技术】dicebear一句话生成头像

上一篇 2026年3月17日下午5:35

机器学习中火爆的对抗学习是什么，有哪些应用？

下一篇 2026年3月17日下午5:36

自定义bt服务器,[教程]Aria2自动更新BT Tracker服务器列表的方法[通俗易懂]

自定义bt服务器,[教程]Aria2自动更新BT Tracker服务器列表的方法[通俗易懂]说明公开的BTtracker服务器，因为种种原因总会经常失效，要想获取更多的peer需要经常维护这份列表。感谢github上的小伙伴提供了这么一份tracker自动更新列表：trackerslist。我们要想Aria2也支持自动更新这份列表，那么你可以按照下面方法来实现。方法此文仅适用于Centos系统，其它系统稍作变更即可。我没有使用过其它系统，这里也就不提供兼容性的脚本了。示例：Aria2安…

全栈程序员-站长
2022年9月30日
4
jenkins教程_1 简介「建议收藏」

jenkins教程_1 简介「建议收藏」文章内容https://gitee.com/fakerlove/jenkins文章目录1.简介1.1介绍1.2环境准备1.2.1安装jenkins1)离线安装2)docker安装3)访问jenkins1.2.2安装gitlab一、安装及配置1.gitlab镜像拉取2.运行gitlab镜像3.配置4.创建一个项目二、用户使用1.下载git.exe2.登录gitlab网页3.设置ssh4.从gitlab克隆代码5.提交代码到gitlab1.2.3gitlab占用内存太多问题1.简.

全栈程序员-站长
2022年5月15日
39
pytorch安装、环境搭建及在pycharm中的设置

pytorch安装、环境搭建及在pycharm中的设置pytorch安装、环境搭建及在pycharm中设置这两天同学在问我pytorch的安装，因为自己的已经安装好了，但是好像又有点遗忘，所以记录一下。一、安装python直接到官网找到和自己设备匹配的版本下载安装即可。安装过程不会出现太多问题，一般情况下python安装在本机上，故可以直接在终端测试是否安装成功。只需win+R——cmd——输入python，就会输出python的版本信息。…

全栈程序员-站长
2022年8月29日
4
mysql全文检索分词_sqlserver全文检索

mysql全文检索分词_sqlserver全文检索通常情况下，全文检索引擎我们一般会用ES组件（传送门：SpringBoot系列——ElasticSearch），但不是所有业务都有那么大的数据量、那么大的并发要求，MySQL5.7之后内置了ngram分词器，支持中文分词，使用全文索引，即可实现对中文语义分词检索MySQL全文检索官方文档介绍：https://dev.mysql.com/doc/refman/5.7/en/fulltext-search.html　　查看MySQL版本创建game游戏表，并插入数据插入全文索引　　可以在mysq

全栈程序员-站长
2022年8月24日
12
俞敏洪是新东方_新东方创始人是谁

俞敏洪是新东方_新东方创始人是谁一年前，不用考虑省略号后的故事，那是个不可能的假设。作为教育培训机构，新东方带有比一般企业更为浓烈的创始人气质。俞敏洪就是新东方，他的儒雅风度、人文情怀、幽默口才，卡内基式奋斗经历，都成为公司的标签。特别是另外两位同样富有个性魅力的创始人徐小平和王强离开后，俞更没有理由拒绝扮演这

全栈程序员-站长
2025年11月2日
9
Mysql和redis_简述Redis和MySQL的区别[通俗易懂]

Mysql和redis_简述Redis和MySQL的区别[通俗易懂]我们知道，mysql是持久化存储，存放在磁盘里面，检索的话，会涉及到一定的IO，为了解决这个瓶颈，于是出现了缓存，比如现在用的最多的memcached(简称mc)。首先，用户访问mc，如果未命中，就去访问mysql，之后像内存和硬盘一样，把数据复制到mc一部分。redis和mc都是缓存，并且都是驻留在内存中运行的，这大大提升了高数据量web访问的访问速度。然而mc只是提供了简单的数据结构，比如…

全栈程序员-站长
2022年6月16日
52