《模式识别导论》PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
x x
1, 2,
g(x) g(x)
0 0
通常通过特征抽取可以获得n维特征向量,因此n维 权向量是要求解的。
求解权向量的过程就是分类器的训练过程,使用已 知类别的有限的学习样本来获得分类器的权向量被称为 有监督的分类。
2020/11/13
2
利用已知类别学习样本来获得权向量的训练过程如下
x1
第三章 分类器的设计
线性分类器的设计 分段线性分类器的设计 非线性分类器的设计
2020/11/13
1
§3-1 线性分类器的设计
上一章我们论讨了线性判别函数形式为:
g(x)=WTX +Wn+1
其中 X= (X1, X2…Xn) n维特征向量 W= (W1, W2 … Wn ) n维权向量
分类准则
例:在样本 ω1: X1 =(0,2) X3 =(2,0)
x1
X5 =(-1,-1) ω2: X2 =(1,1) X4 =(0,-2)
1
x6
X6 =(-2,0)
-2
求权向量的近似解
x5 x4
x2
x2
x3
1
x1
-2
H
2020/11/13
19
解:此为线性不可分问题,利用感知器法求权向量 权向量产生循环(-1, 2, 0), (0, 2, 2), (-1, 1, 1), (-1, 1, 1)
0 –2 2 -1
0 –2 2 –1
0 –1 3 0
3
0 –1 3 0
0 –1 3 0
0 –1 3 0
0 –1 3 0
4
0 –1 3 0
0 –1 3 0
直到在一个迭代过程中权向量相同,训练结束。
w6=w=(0,-1,3,0)
判别函数g(x)= -x2+3x3
感知器算法只对线性可分样本有收敛的解,对非线性可
即感知器迭代公式:Wk 1 Wk k
X
XX 0
由J(W)经第K+1次迭代的时候,J(W)趋于0,收敛于所求的W值
2020/11/13
13
W的训练过程:
例如:x1, x2, x3∈ω1 作 x1, x3的垂直线可得解区(如图) 假设起始权向量w1=0 ρk = 1 1. x1, x2, x3三个矢量相加得矢量2,垂直于矢量2的超平面H将x3错分. 2. x3与矢量2相加得矢量3,垂直于矢量3的超平面H1,将x1错分. 3.依上法得矢量4,垂直于矢量4做超平面, H2将x3错分
X
X
2
X
21
..... ...
... ...
... ...
...
...
每个样本有n个特征
XN
XN
1
XN 2
...
XNn
则有联立方程XW=b 这是矛盾方程组,方程数大于未知
数,所以没有精确解的存在。
2020/11/13
22
定义误差向量:e=XW-b≠0 把平方误差作为目标函数
N
② 联立方程的解是非单值,在不同条件下,有不同的解, 所以就产生了求最优解的问题
③ 求解W的过程就是训练的过程。训练方法的共同点是, 先给出准则函数,再寻找使准则函数趋于极值的优化 算法,不同的算法有不同的准则函数。算法可以分为 迭代法和非迭代法。
2020/11/13
6
一 .梯度下降法—迭代法
欲对不等式方程组WTX>0求解,首先定义准则函数目标
x1=(1,0,1,1) x2=(0,1,1,1)
x3=(1,1,0,1) x4=(0,1,0,1) 假设初始权向量 w1=(1,1,1,1) 第一次迭代:
ρk=1
x3
x1 1
x2
1
1 x4 x3
x2
w1Tx1=(1,1,1,1) (1,0,1,1)T=3>0 所以不修正
x1
w1Tx2=(1,1,1,1) (0,1,1,1)T=3>0 所以不修正
x1 1 0 1 1 x2 0 1 1 1 x3 1 1 0 1 x4 0 1 0 1
+
w1
+
w1
+
w1-x3
0
w2-x4
0
w3+x1
+
w4
0
w4-x3
-
w5
+
w5
-
w5+x2
-
w6
-
w6
+
w6
+
w6
-
w6
-
w6
1111
1111
1
0010
0 –1 1 -1
1 –1 2 0
1 –1 2 0
2
0 –2 2 –1
函数)J(W),再求J(W)的极值使W优化。因此求解权向量的
问题就转化为对一标量函数求极值的问题。解决
此类问题的方法是梯度下降法。
方法就是从起始值W1开始,算出W1处目标函数的梯度 矢量▽J(W1),则下一步的w值为:
W2 = W1-ρ1▽J(W1)
W1为起始权向量
ρ1为迭代步长
J(W1) 为目标函数
2020/11/13
17
训练样本
wkTx
修正式
修正后的权值wk+1
迭代次数
x1 1 0 1 1 x2 0 1 1 1 x3 1 1 0 1 x4 0 1 0 1
x1 1 0 1 1 x2 0 1 1 1 x3 1 1 0 1 x4 0 1 0 1
x1 1 0 1 1 x2 0 1 1 1 x3 1 1 0 1 x4 0 1 0 1
D-1是D的逆阵
讨论:牛顿法比梯度法收敛的更快,但是D的计算量大并 且要计算D-1。当D为奇异时,无法用牛顿法。
2020/11/13
10
二 感知器法
感知器的原理结构为:
2020/11/13
11
通过对W的调整,可实现判别函数 g(x) =WTX > RT 其中RT为响应阈值
定义感知准则函数:只考虑错分样本
X 1a
X 2a 1
X
X 1b
X 2b
1
X 1c X 2c 1
X 1d X 2d 1
ຫໍສະໝຸດ Baidu
为各模式增1矩阵
为N*(n+1)矩阵 N为样本数,n为特征数
2020/11/13
5
训练过程就是对已知类别的样本集求解权向量w,
这是一个线性联立不等式方程组求解的过程。
求解时: ① 只有对线性可分的问题,g(x) =WTX才有解
前面我们研究了线性不等式方程组g(x) =WTX>0的解法。
它们共同点是企图找一个权向量W,使错分样本最小。
现在我们把不等式组变成如下形式:
WTXi=bi>0
令X
T
X1, X2, X ..... N
T
bi b1,b2, b ..... N 给定的任意正常数
X 1 X 11 X 12 .... X 1n
x2 …….
xn 1
w1
W1 X1
W2 X2
w2
wn wn+1
Wn Xn Wn+1
g(x)=wTx
∑
>0 x∈ω1 <0 x∈ω2
检测 (已知类别)
W1 W
已知x1 ∈ω1, 通过检测调整权向量,最终使x1 ∈ω1 已知x2 ∈ω2, 通过检测调整权向量,最终使x2 ∈ω2 这样就可以通过有限的样本去决定权向量
Xd = (X1d, X2d)T
判别函数可联立成:
X1aW1+ X2aW2+ W3>0
①
X1bW1+ X2bW2+ W3>0
②
X1cW1+ X2cW2+ W3<0
③
X1dW1+ X2dW2+ W3<0
④
2020/11/13 求出W1 , W2, W3
4
将③ ④式正规化,得
-X1cW1- X2cW2- W3 >0 -X1dW1- X2dW2- W3 >0 所以 g(x) =WTX >0 其中W = (W1 , W2, W3)T
2020/11/13
23
W X T X 1 X T b X b (MSE 解) 其中 X X T X 1 X T 称为X的伪逆(规范矩阵)
只要计算出X 就可以得到W
取:
N / N1
..........
N / N1
b
N
/
N
2
其中N/N1有N1个,N/N2有N2个
......
其中▽J=▽J(Wk) 对ρk求导数 ,并令导数为零有 最佳步长为ρk=||▽J||2/▽JTD▽J 这就是最佳ρk的计算公式,但因二阶偏导数矩阵D的计算 量太大,因此此公式很少用。
2020/11/13
9
若令W=Wk+1上式为 J(Wk+1)=J(Wk)+▽JT(Wk+1-Wk)+(Wk+1-Wk)TD(Wk+1-Wk)T/2 对Wk+1求导,并令导数为零可得: 最佳迭代公式:Wk+1= Wk- D-1▽J —牛顿法的迭代公式
w1Tx3=(1,1,1,1) (1,1,0,1)T=3>0 所以修正w1
w2=w1-x3=(0,0,1,0)
w2Tx4=(0,0,1,0)T (0,1,0,1) =0 所以修正w2
w3=w2-x4=(0,-1,1,-1)
第一次迭代后,权向量w3=(0,-1,1,-1),再进行第2,3,…次迭代
如下表
2020/11/13
3
利用方程组来求解权向量
对二类判别函数g(x) = W1X1+ W2X2 +W3
已知训练集:Xa, Xb, Xc, Xd且
当 (Xa, Xb) ∈
时 g(x)>0 1
当 (Xc, Xd) ∈
设 Xa = (X1a, X2a)T
2时Xbg(=x)(<X1b0,
X2b)T
Xc = (X1c, X2c)T
分样本集会造成训练过程的振荡,这是它的缺点.
2020/11/13
18
线性不可分样本集的分类解(取近似解)
对于线性可分的样本集,可以用上述方法解到正确分
类的权向量。当样本集线性不可分时,用上述方法求权
值时算法不收敛。如果我们把循环的权向量取平均值作
为待求的权向量,或就取其中之一为权向量,一般可以
解到较满意的近似结果。
而x5错分到ω2类,但大部分分类还是正确的。
2020/11/13
20
作业:已知四个训练样本
w1={(0,0),(0,1)} w2={(1,0),(1,1)} 使用感知器固定增量法求判别函数
设w1=(1,1,1) ρk=1 要求编写程序上机运行,写出判别函数,并打出图表。
2020/11/13
21
三 最小平方误差准则(MSE法)--非迭代法
4. x3与矢量4相加得矢量5,矢量5在解区内,垂直于矢量5的超平面可
以把 x1, x2, x3分成一类 。
5
3
x3
4
W区间
2 x2 H1
2020/11/13
1H4
H2
x1
感知器算法: 1.错误分类修正wk 如wkTx≤0并且x∈ω1 wk+1= wk+ρkx 如wkTx≥0并且x∈ω2 wk+1= wk-ρkx 2.正确分类 ,wk不修正 如wkTx>0并且x∈ω1 如wkTx<0并且x∈ω2 wk+1= wk
▽J(W1)为W1处的目标函数的梯度矢量
2020/11/13
7
在第K步的时候
Wk+1 = Wk-ρk▽J(Wk) ρk为正比例因子 这就是梯度下降法的迭代公式。这样一步步迭代
就可以收敛于解矢量,ρk取值很重要。 ρk太大,迭代太快,引起振荡,甚至发散。 ρk太小,迭代太慢。 应该选最佳ρk。
2020/11/13
8
选最佳ρk
目标函数J(W)二阶台劳级数展开式为 J(W)≈J(Wk)+ ▽JT(W- Wk)+(W- Wk)TD(W- Wk)T/2 ① 其中D为当W = Wk时 J(W)的二阶偏导数矩阵
将W=Wk+1 = Wk-ρk▽J(Wk)代入①1式得: J(Wk+1) ≈J(Wk)- ρk||▽J||2+ ρk2▽2 JT D▽J
定义:
J
(W
)
W
XX 0
T
其X 中x0为错分样本
当分类发生错误时就有WTX <0,或-WTX >0, 所 以J(W) 总是正值,错误分类愈少, J(W)就愈 小。
理想情况为 J (W ) 即0 求最小值的问题。
2020/11/13
12
求最小值对W求梯度
J
J (W ) W
XX 0
X
代入迭代公式中Wk+1 = Wk-ρk▽J
J (W ) || e ||2 || XW b ||2
T W Xi
2
bi
MSE准则函数
i 1
W的优化就是使J(W)最小。求J(W)的梯度并为0。
N
J(W) 2 W T X ibi X i 2 X T (XW b) 0 i 1
解上方程得 XTXW=XTb 这样把求解XW=b的问题,转化为对XTXW=XTb求解,这 一有名的方程,最大好处是因XTX是方阵且通常是非奇的, 所以可以得到W的唯一解。
wk
+ H
wk+1 -
ρkx
2020/11/13
权值修正过程
15
ρk选择准则 ① 固定增量原则 ρk固定非负数
②
绝对修正规则 ρk>
| wT x | XT x
③ 部分修正规则 ρk=λ
| wT x | X T x 0<λ≤2
2020/11/13
16
例题:有两类样本
ω1=(x1,x2)={(1,0,1),(0,1,1)} ω2=(x3,x4)={(1,1,0),(0,1,0)} 解:先求四个样本的增值模式
N / N 2
最小平方误差法同Fisher法是一致的。
(-1, 1, 1), (0, 0, 0), (-1, 2, 0) 因此算法不收敛,我们可以取循环中任一权值,例如取
W=(0,2,2)T 则判别函数为: g(x)= 2x1+2x2 判别面方程为: g(x)= 2x1+2x2=0 所以x1+x2=0 由图看出判别面H把二类分开,但其中x2 错分到ω1类,