第3章 人工神经网络数理基础
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
即AT=A-1。
3.7.2 矩阵的运算
(1) 加法:只有同型矩阵才可以相加。如
(2) 数乘:k是一个常数, 以矩阵可表示为
《人工神经网络及应用》
是一个矩阵,常数乘
31
(3) 乘法:当矩阵A的列数等于矩阵B的行数时,矩阵才可 以相乘。设A为一个m×t的矩阵,B为一个t×n的矩阵, 矩阵A乘以矩阵B的结果是一个m×n的矩阵。
《人工神经网络及应用》
28
3.7 矩阵 3.7.1 概念 1.矩阵的定义
将m×n个数排列成m行n列的一个表格,如:
则称它为一个m×n的矩阵。特别的,当m=n时,称为n阶 方阵。
《人工神经网络及应用》
29
• 如果两个矩阵
且m=c,n=d,那
么称A和B为同矩阵。如果矩阵A和矩阵B对应位置的元素
都相等,那么称矩阵A等于矩阵B,记作A=B。
3.4.2 定积分定理与性质 1. 定理
定理一:如果f(x)在区间[a, b]上连续,那么 在。
必定存
定理二:假设 f(x)在[a, b]上有界,且只有有限个间断点,
《人工神经网络及应用》
22
那么
存在。
2. 性质
(1)若f(x)与g(x)在区间[a, b]上连续,且
存在
使得
则
那么至少
(2) 积分中值定理:设f(x)在区间[a, b]上连续,则至少存在 一点 在 [a, b]内,使得
《人工神经网络及应用》
13
此时,净输入n为
也可以表述为
•在单输入神经元模型当中,权值矩阵W只有一个元素w, 但是多输入神经元的权值矩阵W有R个元素,所以神经元输 出表述为
《人工神经网络及应用》
14
1. 定义
1)导数的定义
3.2 导数
• 设函数
在x=x0的邻域U(x0)内有定义,并设, 假设
存在,则称函数y=f(x)在x=x0处可导,式(3-7)的极限是函数
运算法则:下列函数 u= u(x),v= v(x)均可导。
3.4.1 定义
3.4 积 分
《人工神经网络及应用》
20
1. 不定积分
• 不定积分是指在区间U内,函数f(x)带有任意常数项的原 函数称为f(x)在区间U内的不定积分,记作
式中,∫为积分号,f(x)为被积函数,f(x)dx为被积表达式, x为积分变量。
《人工神经网络及应用》
16
二阶以及二阶以上的导数称为高阶导数。
2. 定理与性质
定理一:如果 f(x)在x处可导,那么f(x)在同一点处必连续
,但是反之不成立。
定理二:如果f(x)在x=x0处可导,则可推出f(x)在x=x0处左 导数和右导数都存在,且左导数和右导数相等。反之也成
立。当函数可导时,
导数的几何意义:若函数f(x)在x=x0的导数记为
是所有取自不同行不同列的n个元素的乘积
的代数和,其中
是1,2,…,n的一个排列。当
偶排列时,该项带正号;当
为奇
排列时,为负号。因此,
《人工神经网络及应用》
26
式(3-16)是对n阶行列式求和。
2. 行列式性质
• (1) 行列式经过转置其值不变:|AT|=|A|。
• (2) 如果行列式的某一行或者某一列有公因子k,可以把k 提到行列式外边,表示成k乘以行列式。
(4) 转置:矩阵 到新的矩阵 AT。
在x=x0 。处的导数,记作
即
《人工神经网络及应用》
15
也可写为
2)左、右导数的定义
极限
和
x=x0处的左导数和右导, 分别记
3) 高阶导数的定义
分别称为y=f(x)在 和
设函数y = f(x)的导数
依旧是x的函数,则称
的导数为函数y=f(x)的二阶导数,记为 或者
类似的,称二阶导数的导数为三阶导数,以此类推, 函 数 y=f(x)具有n 阶导数,也可称函数f(x)为n阶导数。
2. 定积分
• 设f(x)在区间[a, b]上有定义而且有界,在区间[a, b]任意
插入若干个点 区间,每个小区间的长度为
《人工神经网络及应用》
把区间分成n个小
21
在每个小区间
中任取一
点 作和式
该式被称为积分和,取
当λ→0时,积分和的极限
存在,则称f(x)在[a, b]上可积,称上述极限为f(x)在[a, b] 上的定积分。
效果相同。
《人工神经网络及应用》
12
4. 多输入神经元
•多输入神经元就是神经元模型中不只有一个输入的情况。
若神经元具有R个输入,它的输入
分别对
应着权值矩W中的元素
如图3-4所示。
多输入神经元神经元模型有偏置b,它将与所有输入的加权
和累加,然后形成净输入n,最后再将它送入传递函数f当
中,得到输出量y。
表3-1 传递函数
《人工神经网络及应用》
5
《人工神经网络及应用》
6
《人工神经网络及应用》
7
《人工神经网络及应用》
8
下面以对数S型传递函数和线性整流函数ReLU为例,对传
递函数进行简单说明。
• 对数S型传递函数,即Sigmoid函数,源自文库生物学中也称为S
型生长曲线。由于具有单调递增特性以及反函数也具有单
调递增的特性,可以将输出映射到0到1之间,因此常被当
做传递函数或阈值函数使用。其函数表达式为
1 y=
1 + e-n
(3-2)
式中,n表示净输入,y是处于0到1之间的输出量。图3-2是
对数S型传递函数的特性图。
•对 数 S 型 传 递 函 数 的 优 点 是 能 够 把 输 出 的 实 数 值 限 定 在 0 到
3.5 梯 度
1. 方向导数定理
《人工神经网络及应用》
23
• 如果函数
在点
处可微分,那么函数在该
点沿任一方向l的方向导数都存在,且有
式中,cosα,cosβ是方向l的方向余弦。
• 梯度的本意是一个向量,表示函数在某点处的方向导数沿 该方向取得最大值,也就是说,函数在该点沿此梯度的方 向变化最快、变化率最大为该梯度的模。
人工神经网络及应用
主讲人: 单 位:
《人工神经网络及应用》
第3章 人工神经网络数理基础
《人工神经网络及应用》
1
• 人工神经网络和数学是密不可分的,首先神经网络是 用矩阵来描述的,其次,为了方便计算,需要把神经网络 的输入、输出和权值看做是向量或矩阵,向量和矩阵运算 又涉及线性变换等知识。另外,在人工神经网络算法中运 用了梯度、导数、微分等数学知识。因此 ,了解和掌握基 本的数理知识是学习和应用人工神经网络的基础。
xw
Ʃn
y
f
b
1
图3-1单输入神经元的工作原理
《人工神经网络及应用》
3
如果将这个神经元模型与生物神经元对照,那么输入标量x 相当于外部的激励,权值w相当于突触的连接强度,胞体 对应于累加器和传递函数,神经元输出y代表轴突的输出信 号。因此,神经元的输出为
y f (wx b)
(3-1)
式中,传递函数f决定了神经元的实际的输出标量y。假设 x=2,w=3,b=2时,那么神经元的输出为
• (3) 行列式的两行(或者两列)互换位置,行列式的值变
《人工神经网络及应用》
27
号。当行列式中有两行或者两列相同时,行列式值为零。 • (4 )如果行列式的某一行(或者某一列)是两个元素之和,
那么可以把行列式分成两个行列式之和。如:
• (5)把行列式的某一行(或者某一列)的n倍加到另一行 (或者另一列)行列式的值不变。如:
,则它是曲线f(x)在点
处的斜率。
《人工神经网络及应用》
17
• 运算法则:下列函数
均可导。
3.3 微 分 3.3.1 定义
• 设函数y=f(x)在x=x0的邻域U(x0)内有定义,同时假设 若
式中,常数A与 无关, ,
《人工神经网络及应用》
则称f(x)在点x=x0
18
处可微 ,并 称
为f(x)在点x=x0处的微分。又因为自变
《人工神经网络及应用》
1
3.1 神经元模型 1. 符号说明
•为了方便表述神经元,也为了本书的规范性和统一性,除
特殊说明外,书中涉及的符号遵循以下规定:
(1) 小写斜体字母代表标量,例如x,y。 (2) 小写的黑色斜体字母代表向量,例如 x ,y 。 (3)大写的黑色斜体字母代表矩阵,例如X ,Y 。 (4)权值下标的定义:权值矩阵元素的下标的第一个参数表 示的是权值连接后一层接收目标神经元的编号,第二个下
2. 矩阵的分类
• 设A为n阶矩阵,则
(1) 零矩阵:当矩阵内所有的元素都为零时,称矩阵为零矩 阵,记作O。
(2) 单位阵:主对角元素都是1,其余元素都为0的矩阵称为 单位矩阵,记作En(或者E)。
《人工神经网络及应用》
30
(3 )对角阵:非对角元素都为0的矩阵称为对角阵,记作Λ。 (4) 对称阵:如果AT=A,即就是aij=aji的矩阵称为对称阵。 (5) 正交阵:如果满足ATA =AAT= E,则称A为正交矩阵。
量的增量 等于自变量的微分dx,因此dy可以记作
dy=Adx。
3.3.2 定理与性质
1.定理
定理一 :如果 y=f(x)在x=x0处可导,可以推出f(x)在x=x0 处可微分,反之也可以推出,那么当这个条件成立时,
《人工神经网络及应用》
19
定理二 :如果 y=f(x)在x0处可微,那么 也可写为
2. 性质
1之间,缺点是容易饱和。当输入值太大或者太小时,神经
元的梯度就无限趋近0,使得在计算反向误差时,最终的权
值几乎不会更新。
《人工神经网络及应用》
9
另外,如果对数S型传递函数的输出不是以零为中心,那么 在后续的神经网络处理数据时将接收不到零中心的数据, 从而会对梯度产生影响,降低权值更新效率。
•线性整流函数 (Rectified Linear Unit,ReLU),类似于数 学中的斜坡函数,是目前人工神经网络最常用的一种传递 函数,函数表达式为
2. 梯度定义
设二元函数 数,对于每一个点
在平面区域D上具有一阶连续偏导 且点P在区域D内,都会有一个
《人工神经网络及应用》
24
向量
式(3-14)被称为函数
作
或者
在点 ,即
的梯度,记
式中,▽被称为向量的微分算子或者Nabla算子。
《人工神经网络及应用》
25
3.6 行列式
1. n阶行列式的概念
n 阶行列式
标表示权值连接前一层输出源神经元的编号。例如w1,2表示 该元素是从前一层第二个神经元到后一层第一个输入神经
元的连接权值;w3,4表示该元素是从前一层第四个神经元到 后一层第三个输入神经元的连接权值。
《人工神经网络及应用》
2
.2. 单输入神经元
•单 输 入 神 经 元 的 工 作 原 理 如 图 3 - 1 所 示 。 它 相 当 于 权 值 w 乘 以输入标量x得到wx,将它送入累加器中形成一个新的输入。 另一个输入1乘以偏置b后也送入到累加器中,累加器的输 出n通常被称为净输入,将净输入n送入传递函数f中,经传 递函数f映射后产生神经元的输出标量y。
•图 3 - 3 是 线 性 整 流 传 递 函 数 的 特 性 图 。 可 以 发 现 : 当 输 入 正值时,ReLU函数输出等于输入;当输入为零和负值时, ReLU函数输出为零。
《人工神经网络及应用》
10
y
n 0
图3-2 对数S型传递函数
图3-3线性整流传递函数
《人工神经网络及应用》
11
•相比于对数S型传递函数,ReLU函数不存在梯度饱和问题, 且具有更快的收敛速度。但是当输入是负数的时候,ReLU 是完全不被激活的,这就表明一旦输入到了负数,ReLU就 会只输出0值。在前向传播过程中,这种情况可能还不算什 么问题,因为有的区域是敏感的,有的是不敏感的。但是 进入反向传播过程中,遇到负数输入,梯度就会降到0,这 种情况与对数S型传递函数和正切S型函数是一样。 •为了避免这种情况发生,可以采用改进型的函数,如 PReLU、ELU、Leaky ReLU等。函数给负值区域也赋予了 一定的斜率,尽管斜率很小,但是不会趋于0。当然,它们 之间也有差别,ELU和PReLU函数区别在于,PReLU函数 在负数区域内是线性运算。另外,在表3-1中α的取值一般 都很小,特别当α=0.01时,PReLU与Leaky ReLU函数作用
另外,式(3-1)中偏置参数b可以有,也可以没有。当设置 了偏置参数时,它的作用有点像权值,当然在神经元模型 中也可以不使用偏置。在神经元模型中,权值w和偏置b是 可以调整的。另外,在实际应用中,可以根据输出的需要, 选择不同的传递函数。
《人工神经网络及应用》
4
3. 传递函数
•传递函数在神经元中的作用就是将累加器的输出按照指定 的函数关系得到一个新的映射输出,进而完成人工神经网 络的训练。另外,传递函数能够用来加入非线性因素,提 高人工神经网络对模型的表达能力,解决线性模型所不能 解决的一些问题。不同种类的神经网络、不同的应用场合, 所选择的传递函数可以不同。传递函数的种类很多,表3-1 给出了常用的几种传递函数。
3.7.2 矩阵的运算
(1) 加法:只有同型矩阵才可以相加。如
(2) 数乘:k是一个常数, 以矩阵可表示为
《人工神经网络及应用》
是一个矩阵,常数乘
31
(3) 乘法:当矩阵A的列数等于矩阵B的行数时,矩阵才可 以相乘。设A为一个m×t的矩阵,B为一个t×n的矩阵, 矩阵A乘以矩阵B的结果是一个m×n的矩阵。
《人工神经网络及应用》
28
3.7 矩阵 3.7.1 概念 1.矩阵的定义
将m×n个数排列成m行n列的一个表格,如:
则称它为一个m×n的矩阵。特别的,当m=n时,称为n阶 方阵。
《人工神经网络及应用》
29
• 如果两个矩阵
且m=c,n=d,那
么称A和B为同矩阵。如果矩阵A和矩阵B对应位置的元素
都相等,那么称矩阵A等于矩阵B,记作A=B。
3.4.2 定积分定理与性质 1. 定理
定理一:如果f(x)在区间[a, b]上连续,那么 在。
必定存
定理二:假设 f(x)在[a, b]上有界,且只有有限个间断点,
《人工神经网络及应用》
22
那么
存在。
2. 性质
(1)若f(x)与g(x)在区间[a, b]上连续,且
存在
使得
则
那么至少
(2) 积分中值定理:设f(x)在区间[a, b]上连续,则至少存在 一点 在 [a, b]内,使得
《人工神经网络及应用》
13
此时,净输入n为
也可以表述为
•在单输入神经元模型当中,权值矩阵W只有一个元素w, 但是多输入神经元的权值矩阵W有R个元素,所以神经元输 出表述为
《人工神经网络及应用》
14
1. 定义
1)导数的定义
3.2 导数
• 设函数
在x=x0的邻域U(x0)内有定义,并设, 假设
存在,则称函数y=f(x)在x=x0处可导,式(3-7)的极限是函数
运算法则:下列函数 u= u(x),v= v(x)均可导。
3.4.1 定义
3.4 积 分
《人工神经网络及应用》
20
1. 不定积分
• 不定积分是指在区间U内,函数f(x)带有任意常数项的原 函数称为f(x)在区间U内的不定积分,记作
式中,∫为积分号,f(x)为被积函数,f(x)dx为被积表达式, x为积分变量。
《人工神经网络及应用》
16
二阶以及二阶以上的导数称为高阶导数。
2. 定理与性质
定理一:如果 f(x)在x处可导,那么f(x)在同一点处必连续
,但是反之不成立。
定理二:如果f(x)在x=x0处可导,则可推出f(x)在x=x0处左 导数和右导数都存在,且左导数和右导数相等。反之也成
立。当函数可导时,
导数的几何意义:若函数f(x)在x=x0的导数记为
是所有取自不同行不同列的n个元素的乘积
的代数和,其中
是1,2,…,n的一个排列。当
偶排列时,该项带正号;当
为奇
排列时,为负号。因此,
《人工神经网络及应用》
26
式(3-16)是对n阶行列式求和。
2. 行列式性质
• (1) 行列式经过转置其值不变:|AT|=|A|。
• (2) 如果行列式的某一行或者某一列有公因子k,可以把k 提到行列式外边,表示成k乘以行列式。
(4) 转置:矩阵 到新的矩阵 AT。
在x=x0 。处的导数,记作
即
《人工神经网络及应用》
15
也可写为
2)左、右导数的定义
极限
和
x=x0处的左导数和右导, 分别记
3) 高阶导数的定义
分别称为y=f(x)在 和
设函数y = f(x)的导数
依旧是x的函数,则称
的导数为函数y=f(x)的二阶导数,记为 或者
类似的,称二阶导数的导数为三阶导数,以此类推, 函 数 y=f(x)具有n 阶导数,也可称函数f(x)为n阶导数。
2. 定积分
• 设f(x)在区间[a, b]上有定义而且有界,在区间[a, b]任意
插入若干个点 区间,每个小区间的长度为
《人工神经网络及应用》
把区间分成n个小
21
在每个小区间
中任取一
点 作和式
该式被称为积分和,取
当λ→0时,积分和的极限
存在,则称f(x)在[a, b]上可积,称上述极限为f(x)在[a, b] 上的定积分。
效果相同。
《人工神经网络及应用》
12
4. 多输入神经元
•多输入神经元就是神经元模型中不只有一个输入的情况。
若神经元具有R个输入,它的输入
分别对
应着权值矩W中的元素
如图3-4所示。
多输入神经元神经元模型有偏置b,它将与所有输入的加权
和累加,然后形成净输入n,最后再将它送入传递函数f当
中,得到输出量y。
表3-1 传递函数
《人工神经网络及应用》
5
《人工神经网络及应用》
6
《人工神经网络及应用》
7
《人工神经网络及应用》
8
下面以对数S型传递函数和线性整流函数ReLU为例,对传
递函数进行简单说明。
• 对数S型传递函数,即Sigmoid函数,源自文库生物学中也称为S
型生长曲线。由于具有单调递增特性以及反函数也具有单
调递增的特性,可以将输出映射到0到1之间,因此常被当
做传递函数或阈值函数使用。其函数表达式为
1 y=
1 + e-n
(3-2)
式中,n表示净输入,y是处于0到1之间的输出量。图3-2是
对数S型传递函数的特性图。
•对 数 S 型 传 递 函 数 的 优 点 是 能 够 把 输 出 的 实 数 值 限 定 在 0 到
3.5 梯 度
1. 方向导数定理
《人工神经网络及应用》
23
• 如果函数
在点
处可微分,那么函数在该
点沿任一方向l的方向导数都存在,且有
式中,cosα,cosβ是方向l的方向余弦。
• 梯度的本意是一个向量,表示函数在某点处的方向导数沿 该方向取得最大值,也就是说,函数在该点沿此梯度的方 向变化最快、变化率最大为该梯度的模。
人工神经网络及应用
主讲人: 单 位:
《人工神经网络及应用》
第3章 人工神经网络数理基础
《人工神经网络及应用》
1
• 人工神经网络和数学是密不可分的,首先神经网络是 用矩阵来描述的,其次,为了方便计算,需要把神经网络 的输入、输出和权值看做是向量或矩阵,向量和矩阵运算 又涉及线性变换等知识。另外,在人工神经网络算法中运 用了梯度、导数、微分等数学知识。因此 ,了解和掌握基 本的数理知识是学习和应用人工神经网络的基础。
xw
Ʃn
y
f
b
1
图3-1单输入神经元的工作原理
《人工神经网络及应用》
3
如果将这个神经元模型与生物神经元对照,那么输入标量x 相当于外部的激励,权值w相当于突触的连接强度,胞体 对应于累加器和传递函数,神经元输出y代表轴突的输出信 号。因此,神经元的输出为
y f (wx b)
(3-1)
式中,传递函数f决定了神经元的实际的输出标量y。假设 x=2,w=3,b=2时,那么神经元的输出为
• (3) 行列式的两行(或者两列)互换位置,行列式的值变
《人工神经网络及应用》
27
号。当行列式中有两行或者两列相同时,行列式值为零。 • (4 )如果行列式的某一行(或者某一列)是两个元素之和,
那么可以把行列式分成两个行列式之和。如:
• (5)把行列式的某一行(或者某一列)的n倍加到另一行 (或者另一列)行列式的值不变。如:
,则它是曲线f(x)在点
处的斜率。
《人工神经网络及应用》
17
• 运算法则:下列函数
均可导。
3.3 微 分 3.3.1 定义
• 设函数y=f(x)在x=x0的邻域U(x0)内有定义,同时假设 若
式中,常数A与 无关, ,
《人工神经网络及应用》
则称f(x)在点x=x0
18
处可微 ,并 称
为f(x)在点x=x0处的微分。又因为自变
《人工神经网络及应用》
1
3.1 神经元模型 1. 符号说明
•为了方便表述神经元,也为了本书的规范性和统一性,除
特殊说明外,书中涉及的符号遵循以下规定:
(1) 小写斜体字母代表标量,例如x,y。 (2) 小写的黑色斜体字母代表向量,例如 x ,y 。 (3)大写的黑色斜体字母代表矩阵,例如X ,Y 。 (4)权值下标的定义:权值矩阵元素的下标的第一个参数表 示的是权值连接后一层接收目标神经元的编号,第二个下
2. 矩阵的分类
• 设A为n阶矩阵,则
(1) 零矩阵:当矩阵内所有的元素都为零时,称矩阵为零矩 阵,记作O。
(2) 单位阵:主对角元素都是1,其余元素都为0的矩阵称为 单位矩阵,记作En(或者E)。
《人工神经网络及应用》
30
(3 )对角阵:非对角元素都为0的矩阵称为对角阵,记作Λ。 (4) 对称阵:如果AT=A,即就是aij=aji的矩阵称为对称阵。 (5) 正交阵:如果满足ATA =AAT= E,则称A为正交矩阵。
量的增量 等于自变量的微分dx,因此dy可以记作
dy=Adx。
3.3.2 定理与性质
1.定理
定理一 :如果 y=f(x)在x=x0处可导,可以推出f(x)在x=x0 处可微分,反之也可以推出,那么当这个条件成立时,
《人工神经网络及应用》
19
定理二 :如果 y=f(x)在x0处可微,那么 也可写为
2. 性质
1之间,缺点是容易饱和。当输入值太大或者太小时,神经
元的梯度就无限趋近0,使得在计算反向误差时,最终的权
值几乎不会更新。
《人工神经网络及应用》
9
另外,如果对数S型传递函数的输出不是以零为中心,那么 在后续的神经网络处理数据时将接收不到零中心的数据, 从而会对梯度产生影响,降低权值更新效率。
•线性整流函数 (Rectified Linear Unit,ReLU),类似于数 学中的斜坡函数,是目前人工神经网络最常用的一种传递 函数,函数表达式为
2. 梯度定义
设二元函数 数,对于每一个点
在平面区域D上具有一阶连续偏导 且点P在区域D内,都会有一个
《人工神经网络及应用》
24
向量
式(3-14)被称为函数
作
或者
在点 ,即
的梯度,记
式中,▽被称为向量的微分算子或者Nabla算子。
《人工神经网络及应用》
25
3.6 行列式
1. n阶行列式的概念
n 阶行列式
标表示权值连接前一层输出源神经元的编号。例如w1,2表示 该元素是从前一层第二个神经元到后一层第一个输入神经
元的连接权值;w3,4表示该元素是从前一层第四个神经元到 后一层第三个输入神经元的连接权值。
《人工神经网络及应用》
2
.2. 单输入神经元
•单 输 入 神 经 元 的 工 作 原 理 如 图 3 - 1 所 示 。 它 相 当 于 权 值 w 乘 以输入标量x得到wx,将它送入累加器中形成一个新的输入。 另一个输入1乘以偏置b后也送入到累加器中,累加器的输 出n通常被称为净输入,将净输入n送入传递函数f中,经传 递函数f映射后产生神经元的输出标量y。
•图 3 - 3 是 线 性 整 流 传 递 函 数 的 特 性 图 。 可 以 发 现 : 当 输 入 正值时,ReLU函数输出等于输入;当输入为零和负值时, ReLU函数输出为零。
《人工神经网络及应用》
10
y
n 0
图3-2 对数S型传递函数
图3-3线性整流传递函数
《人工神经网络及应用》
11
•相比于对数S型传递函数,ReLU函数不存在梯度饱和问题, 且具有更快的收敛速度。但是当输入是负数的时候,ReLU 是完全不被激活的,这就表明一旦输入到了负数,ReLU就 会只输出0值。在前向传播过程中,这种情况可能还不算什 么问题,因为有的区域是敏感的,有的是不敏感的。但是 进入反向传播过程中,遇到负数输入,梯度就会降到0,这 种情况与对数S型传递函数和正切S型函数是一样。 •为了避免这种情况发生,可以采用改进型的函数,如 PReLU、ELU、Leaky ReLU等。函数给负值区域也赋予了 一定的斜率,尽管斜率很小,但是不会趋于0。当然,它们 之间也有差别,ELU和PReLU函数区别在于,PReLU函数 在负数区域内是线性运算。另外,在表3-1中α的取值一般 都很小,特别当α=0.01时,PReLU与Leaky ReLU函数作用
另外,式(3-1)中偏置参数b可以有,也可以没有。当设置 了偏置参数时,它的作用有点像权值,当然在神经元模型 中也可以不使用偏置。在神经元模型中,权值w和偏置b是 可以调整的。另外,在实际应用中,可以根据输出的需要, 选择不同的传递函数。
《人工神经网络及应用》
4
3. 传递函数
•传递函数在神经元中的作用就是将累加器的输出按照指定 的函数关系得到一个新的映射输出,进而完成人工神经网 络的训练。另外,传递函数能够用来加入非线性因素,提 高人工神经网络对模型的表达能力,解决线性模型所不能 解决的一些问题。不同种类的神经网络、不同的应用场合, 所选择的传递函数可以不同。传递函数的种类很多,表3-1 给出了常用的几种传递函数。