第3章人工神经网络数理基础

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

即AT=A-1。
3.7.2 矩阵的运算
(1) 加法：只有同型矩阵才可以相加。如
(2) 数乘：k是一个常数，以矩阵可表示为
《人工神经网络及应用》
是一个矩阵，常数乘
31
(3) 乘法：当矩阵A的列数等于矩阵B的行数时，矩阵才可以相乘。设A为一个m×t的矩阵，B为一个t×n的矩阵，矩阵A乘以矩阵B的结果是一个m×n的矩阵。
《人工神经网络及应用》
28
3.7 矩阵 3.7.1 概念 1.矩阵的定义
将m×n个数排列成m行n列的一个表格，如：
则称它为一个m×n的矩阵。特别的，当m=n时，称为n阶方阵。
《人工神经网络及应用》
29
• 如果两个矩阵
且m=c，n=d，那
么称A和B为同矩阵。如果矩阵A和矩阵B对应位置的元素
都相等，那么称矩阵A等于矩阵B，记作A=B。
3.4.2 定积分定理与性质 1. 定理
定理一：如果f(x)在区间[a, b]上连续，那么在。
必定存
定理二：假设 f(x)在[a, b]上有界，且只有有限个间断点，
《人工神经网络及应用》
22
那么
存在。
2. 性质
(1)若f(x)与g(x)在区间[a, b]上连续，且
存在
使得
则
那么至少
(2) 积分中值定理：设f(x)在区间[a, b]上连续，则至少存在一点在 [a, b]内，使得
《人工神经网络及应用》
13
此时，净输入n为
也可以表述为
•在单输入神经元模型当中，权值矩阵W只有一个元素w，但是多输入神经元的权值矩阵W有R个元素，所以神经元输出表述为
《人工神经网络及应用》
14
1. 定义
1）导数的定义
3.2 导数
• 设函数
在x=x0的邻域U(x0)内有定义，并设，假设
存在，则称函数y=f(x)在x=x0处可导，式(3-7)的极限是函数
运算法则：下列函数 u= u(x)，v= v(x)均可导。
3.4.1 定义
3.4 积分
《人工神经网络及应用》
20
1. 不定积分
• 不定积分是指在区间U内，函数f(x)带有任意常数项的原函数称为f(x)在区间U内的不定积分，记作
式中，∫为积分号，f(x)为被积函数，f(x)dx为被积表达式， x为积分变量。
《人工神经网络及应用》
16
二阶以及二阶以上的导数称为高阶导数。
2. 定理与性质
定理一：如果 f(x)在x处可导，那么f(x)在同一点处必连续
，但是反之不成立。
定理二：如果f(x)在x=x0处可导，则可推出f(x)在x=x0处左导数和右导数都存在，且左导数和右导数相等。反之也成
立。当函数可导时，
导数的几何意义：若函数f(x)在x=x0的导数记为
是所有取自不同行不同列的n个元素的乘积
的代数和，其中
是1,2，…，n的一个排列。当
偶排列时，该项带正号；当
为奇
排列时，为负号。因此，
《人工神经网络及应用》
26
式(3-16)是对n阶行列式求和。
2. 行列式性质
• (1) 行列式经过转置其值不变：|AT|=|A|。
• (2) 如果行列式的某一行或者某一列有公因子k，可以把k 提到行列式外边，表示成k乘以行列式。
(4) 转置：矩阵到新的矩阵 AT。
在x=x0 。处的导数，记作
即
《人工神经网络及应用》
15
也可写为
2）左、右导数的定义
极限
和
x=x0处的左导数和右导，分别记
3) 高阶导数的定义
分别称为y=f(x)在和
设函数y = f(x)的导数
依旧是x的函数，则称
的导数为函数y=f(x)的二阶导数，记为或者
类似的，称二阶导数的导数为三阶导数，以此类推，函数 y=f(x)具有n 阶导数，也可称函数f(x)为n阶导数。
2. 定积分
• 设f(x)在区间[a, b]上有定义而且有界，在区间[a, b]任意
插入若干个点区间，每个小区间的长度为
《人工神经网络及应用》
把区间分成n个小
21
在每个小区间
中任取一
点作和式
该式被称为积分和，取
当λ→0时，积分和的极限
存在，则称f(x)在[a, b]上可积，称上述极限为f(x)在[a, b] 上的定积分。
效果相同。
《人工神经网络及应用》
12
4. 多输入神经元
•多输入神经元就是神经元模型中不只有一个输入的情况。
若神经元具有R个输入，它的输入
分别对
应着权值矩W中的元素
如图3-4所示。
多输入神经元神经元模型有偏置b，它将与所有输入的加权
和累加，然后形成净输入n，最后再将它送入传递函数f当
中，得到输出量y。
表3-1 传递函数
《人工神经网络及应用》
5
《人工神经网络及应用》
6
《人工神经网络及应用》
7
《人工神经网络及应用》
8
下面以对数S型传递函数和线性整流函数ReLU为例，对传
递函数进行简单说明。
• 对数S型传递函数，即Sigmoid函数，源自文库生物学中也称为S
型生长曲线。由于具有单调递增特性以及反函数也具有单
调递增的特性，可以将输出映射到0到1之间，因此常被当
做传递函数或阈值函数使用。其函数表达式为
1 y=
1 + e-n
（3-2）
式中，n表示净输入，y是处于0到1之间的输出量。图3-2是
对数S型传递函数的特性图。
•对数 S 型传递函数的优点是能够把输出的实数值限定在 0 到
3.5 梯度
1. 方向导数定理
《人工神经网络及应用》
23
• 如果函数
在点
处可微分，那么函数在该
点沿任一方向l的方向导数都存在，且有
式中，cosα，cosβ是方向l的方向余弦。
• 梯度的本意是一个向量，表示函数在某点处的方向导数沿该方向取得最大值，也就是说，函数在该点沿此梯度的方向变化最快、变化率最大为该梯度的模。
人工神经网络及应用
主讲人：单位：
《人工神经网络及应用》
第3章人工神经网络数理基础
《人工神经网络及应用》
1
• 人工神经网络和数学是密不可分的，首先神经网络是用矩阵来描述的，其次，为了方便计算，需要把神经网络的输入、输出和权值看做是向量或矩阵，向量和矩阵运算又涉及线性变换等知识。另外，在人工神经网络算法中运用了梯度、导数、微分等数学知识。因此，了解和掌握基本的数理知识是学习和应用人工神经网络的基础。
xw
Ʃn
y
f
b
1
图3-1单输入神经元的工作原理
《人工神经网络及应用》
3
如果将这个神经元模型与生物神经元对照，那么输入标量x 相当于外部的激励，权值w相当于突触的连接强度，胞体对应于累加器和传递函数，神经元输出y代表轴突的输出信号。因此，神经元的输出为
y f (wx b)
（3-1）
式中，传递函数f决定了神经元的实际的输出标量y。假设 x=2，w=3，b=2时，那么神经元的输出为
• (3) 行列式的两行（或者两列）互换位置，行列式的值变
《人工神经网络及应用》
27
号。当行列式中有两行或者两列相同时，行列式值为零。 • (4 )如果行列式的某一行（或者某一列）是两个元素之和，
那么可以把行列式分成两个行列式之和。如：
• (5)把行列式的某一行（或者某一列）的n倍加到另一行（或者另一列）行列式的值不变。如：
，则它是曲线f(x)在点
处的斜率。
《人工神经网络及应用》
17
• 运算法则：下列函数
均可导。
3.3 微分 3.3.1 定义
• 设函数y=f(x)在x=x0的邻域U(x0)内有定义，同时假设若
式中，常数A与无关，，
《人工神经网络及应用》
则称f(x)在点x=x0
18
处可微，并称
为f(x)在点x=x0处的微分。又因为自变
《人工神经网络及应用》
1
3.1 神经元模型 1. 符号说明
•为了方便表述神经元，也为了本书的规范性和统一性，除
特殊说明外，书中涉及的符号遵循以下规定：
(1) 小写斜体字母代表标量，例如x，y。 (2) 小写的黑色斜体字母代表向量，例如 x ，y 。 (3)大写的黑色斜体字母代表矩阵，例如X ，Y 。 (4)权值下标的定义：权值矩阵元素的下标的第一个参数表示的是权值连接后一层接收目标神经元的编号，第二个下
2. 矩阵的分类
• 设A为n阶矩阵，则
(1) 零矩阵：当矩阵内所有的元素都为零时，称矩阵为零矩阵，记作O。
(2) 单位阵：主对角元素都是1，其余元素都为0的矩阵称为单位矩阵，记作En(或者E)。
《人工神经网络及应用》
30
(3 )对角阵：非对角元素都为0的矩阵称为对角阵，记作Λ。 (4) 对称阵：如果AT=A，即就是aij=aji的矩阵称为对称阵。 (5) 正交阵：如果满足ATA =AAT= E，则称A为正交矩阵。
量的增量等于自变量的微分dx，因此dy可以记作
dy=Adx。
3.3.2 定理与性质
1.定理
定理一：如果 y=f(x)在x=x0处可导，可以推出f(x)在x=x0 处可微分，反之也可以推出，那么当这个条件成立时，
《人工神经网络及应用》
19
定理二：如果 y=f(x)在x0处可微，那么也可写为
2. 性质
1之间，缺点是容易饱和。当输入值太大或者太小时，神经
元的梯度就无限趋近0，使得在计算反向误差时，最终的权
值几乎不会更新。
《人工神经网络及应用》
9
另外，如果对数S型传递函数的输出不是以零为中心，那么在后续的神经网络处理数据时将接收不到零中心的数据，从而会对梯度产生影响，降低权值更新效率。
•线性整流函数 (Rectified Linear Unit，ReLU)，类似于数学中的斜坡函数，是目前人工神经网络最常用的一种传递函数，函数表达式为
2. 梯度定义
设二元函数数，对于每一个点
在平面区域D上具有一阶连续偏导且点P在区域D内，都会有一个
《人工神经网络及应用》
24
向量
式(3-14)被称为函数
作
或者
在点，即
的梯度，记
式中，▽被称为向量的微分算子或者Nabla算子。
《人工神经网络及应用》
25
3.6 行列式
1. n阶行列式的概念
n 阶行列式
标表示权值连接前一层输出源神经元的编号。例如w1,2表示该元素是从前一层第二个神经元到后一层第一个输入神经
元的连接权值；w3,4表示该元素是从前一层第四个神经元到后一层第三个输入神经元的连接权值。
《人工神经网络及应用》
2
.2. 单输入神经元
•单输入神经元的工作原理如图 3 - 1 所示。它相当于权值 w 乘以输入标量x得到wx，将它送入累加器中形成一个新的输入。另一个输入1乘以偏置b后也送入到累加器中，累加器的输出n通常被称为净输入，将净输入n送入传递函数f中，经传递函数f映射后产生神经元的输出标量y。
•图 3 - 3 是线性整流传递函数的特性图。可以发现：当输入正值时，ReLU函数输出等于输入；当输入为零和负值时， ReLU函数输出为零。
《人工神经网络及应用》
10
y
n 0
图3-2 对数S型传递函数
图3-3线性整流传递函数
《人工神经网络及应用》
11
•相比于对数S型传递函数，ReLU函数不存在梯度饱和问题，且具有更快的收敛速度。但是当输入是负数的时候，ReLU 是完全不被激活的，这就表明一旦输入到了负数，ReLU就会只输出0值。在前向传播过程中，这种情况可能还不算什么问题，因为有的区域是敏感的，有的是不敏感的。但是进入反向传播过程中，遇到负数输入，梯度就会降到0，这种情况与对数S型传递函数和正切S型函数是一样。 •为了避免这种情况发生，可以采用改进型的函数，如 PReLU、ELU、Leaky ReLU等。函数给负值区域也赋予了一定的斜率，尽管斜率很小，但是不会趋于0。当然，它们之间也有差别，ELU和PReLU函数区别在于，PReLU函数在负数区域内是线性运算。另外，在表3-1中α的取值一般都很小，特别当α=0.01时，PReLU与Leaky ReLU函数作用
另外，式(3-1)中偏置参数b可以有，也可以没有。当设置了偏置参数时，它的作用有点像权值，当然在神经元模型中也可以不使用偏置。在神经元模型中，权值w和偏置b是可以调整的。另外，在实际应用中，可以根据输出的需要，选择不同的传递函数。
《人工神经网络及应用》
4
3. 传递函数
•传递函数在神经元中的作用就是将累加器的输出按照指定的函数关系得到一个新的映射输出，进而完成人工神经网络的训练。另外，传递函数能够用来加入非线性因素，提高人工神经网络对模型的表达能力，解决线性模型所不能解决的一些问题。不同种类的神经网络、不同的应用场合，所选择的传递函数可以不同。传递函数的种类很多，表3-1 给出了常用的几种传递函数。

第3章 人工神经网络数理基础

第3章人工神经网络数理基础