5 第五章 分类器的设计

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

x3
3
4 2 x2
W区间
H1 x1
H
H2
18

感知器算法: 1.错误分类修正wk 如wkTx≤0并且x∈ω1 如wkTx≥0并且x∈ω2 2.正确分类 ,wk不修正 如wkTx>0并且x∈ω1 如wkTx<0并且x∈ω2 wk+1= wk
+ -
wk+1= wk-ρkx wk+1= wk-ρkx
H wk+1
通常通过特征抽取可以获得n维特征向量,因此n维权向 量和阈值w0是要求解的。
2

线性分类器的主要设计任务是确定线性 方程的两个参数 方程的两个参数,一个是权向量W,另 个是权向量W 另 一个是阈值w0。 具体过程可大致分为: 1) 按需要确定一准则函数。 按需要确定 准则函数 2) 确定准则函数达到极值时W及w0 的具体数值,从而确定判别函数,完成 分类器设计。
对于线性可分的样本集,可以用上述方法解到正确分 类的权向量 当样本集线性不可分时,用上述方法求权 类的权向量。当样本集线性不可分时,用上述方法求权 值时算法不收敛。如果我们把循环的权向量取平均值作 为待求的权向量,或就取其中之一为权向量,一般可以 解到较满意的近似结果。 X2 例:在样本 X1 ω1: X1 =(0,2)T X3 =(2,0)T X2 X5 =(-1,-1)T 1 T ω2: X2 =(1,1) X6 X3 X4 =(0,-2)T X1 1 -2 X6 =(-2,0) 2 0)T X5 求权向量的近似解 H - 2 X4
权值修正过程
wk
ρkx
19

ρk选择准则 ① 固定增量原则 ρk固定非负数 ② 绝对修正规则 ρk>
| wT x | x x | wT x | x x
T T

部分修 规则 ρk=λ 部分修正规则 λ
0<λ≤2
20

实际上感知器算法所示迭代修正过程是很容易理 解的。由于所有被Wk错分类的样本必然都在以 Wk为法线的超平面的负侧,因而它们的总和也必 为法线的超平面的负侧 因而它们的总和也必 然处于该侧,则WK+1按感知器迭代公式修正,就 会使Wk+1向错分类向量和趋近,有可能使这些错 分类向量之和穿过超平面,或至少朝有利方向变 动。 感知准则函数方法只是对线性可分样本集有效, 感知准则函数方法只是对线性可分样本集有效 而对线性不可分的样本集,该算法不能收敛。因 此又研究出其它方法,如最小错分样本数准则等, 我们不再讨论,读者可参考有关书籍(p (p95) )。
5
利用方程组来求解权向量 对二类判别函数g(x) = w1x1+ w2x2 +w0 已知训练集:Xa, Xb, Xc, Xd且 当 (Xa, Xb) ∈ω1时 g(x)>0 当 (Xc, Xd) ∈ω2时 g(x) )<0 0 设 Xa = (x1a, x2a)T Xc = (x1c, x2c)T 判别函数可联立成: x1aw1+ x2aw2+ w0>0 x1bw1+ x2bw2+ w0>0 x1cw1+ x2cw2+ w0<0 x1dw1+ x2dw2+ w0<0 求出w1 , w2, w0 ① ② ③ ④
1 2
11
若令W=W 若令W Wk+1, k 1 则式①为
J(Wk+1)=J(Wk)+▽JT(Wk+1-Wk)+[(Wk+1-Wk)TD(Wk+1-Wk)] /2
最佳迭代公式:Wk+1= Wk- D-1▽J —牛顿法的迭代公式 D-1是D的逆阵 是 的逆阵
对Wk+1求导,并令导数为零可得: 求导 并令导数为零可得:
讨论:牛顿法比梯度法收敛的更快,但是D的计 讨论 牛顿法比梯度法收敛的更快 但是D的计 算量大并且要计算D-1 。当D为奇异时,无法用牛顿 法。
12
二 、感知器法
感知器的原理结构为:
13
感知器法是五十年代由Rosenblatt提出的一种自 学习判别函数生成方法,由于Rosenblatt企图将 其用于脑模型感知器(Perceptron) ,因此被称为 因此被称为 感知准则函数。其特点是随意确定判别函数的 初始 初始值,在对样本分类训练过程中逐步修正, 在 样 过 中 修 直至最终确定。 最 确 通过对W的调整,可实现判别函数 g(x) =WTX > RT 其中RT为响应阈值
3


换一个方式说,设计线性分类器,是指所用的 判别函数、分界面方程的类型已选定为线性类 型,因此主要的设计任务是确定线性方程的两 个参数,一个是权向量W,另一个是阈值w0。 为了使所设计的线性分类器在性能上要满足一 定的要求,这种要求通过一种准则来体现,并 且要表示成一种准则函数,以便能通过将准则 表 成 种准则 数 便能 过将准则 函数值优化的方法确定W与w0。 求解权向量的过程就是分类器的训练过程,使 用已知类别的有限学习样本来获得分类器的权 向量被称为有监督分类。
6
Xb = (x1b, x2b)T Xd = (x1d, x2d)T
将③ ④式正规化,得 -x1cw1- x2cw2- w0 >0 -x x1dw1- x2dw2- w0>0 所以 g(x) =WTX >0 其中W = (w1 , w2, w0)T
x1 a x X 1b x1 c x1 d x2 a x2 b x2 c x2 d 1 1 1 1
9
在第K步的时候 Wk+1 = Wk-ρk▽J(Wk) 这就是梯度下降法的迭代公式。 这样一步步迭代就可以收敛于解矢量,ρk取值很 重要 ρk太大,迭代太快,引起振荡,甚至发散。 ρk太小,迭代太慢。 应该选最佳ρk。 应该选最佳
10
选最佳ρk
目标函数J(W)二阶泰勒级数展开式为 J(W)≈J(Wk)+ ▽JT(W- Wk)+[(W- Wk)TD(W- Wk)] /2 ① 将W=Wk+1 = Wk-ρk▽J(Wk)代入①式得: J(Wk+1) ≈J(Wk)- ρk||▽J||2+ ρk2▽JT D▽J 其中▽J=▽J(W ( k) 对ρk求导数 ,并令导数为零有 最佳步长为ρk=|| ||▽J||2/▽JTD▽J 这就是最佳ρk的计算公式,但因二阶偏导数矩阵D的计算 量太大 因此此公式很少用 量太大,因此此公式很少用。
15
求最小值就是对W求梯度
J
J (W ) X W X X 0
代入迭代公式中Wk+1 = Wk-ρk▽J
即感知器迭代公式:Wk 1 Wk k
X X 0

X
由J(W)经第K+1次迭代的时候,J(W)趋于0,收敛于所求的W值
16

综上所述,感知准则函数利用梯度下降算法求 综上所述 感知准则函数利用梯度下降算法求 增广权向量的做法,可简述为: 任意给定一向 量初始值W1,第k+1次迭代时的权向量Wk+1等 第k次的权向量WK加上被错分类的所有样本 类 有样 于第 之和与ρk的乘积。 可以证明,对于线性可分的样本集,经过有限 可以证明 对于线性可分的样本集 经过有限 次修正,一定可以找到一个解向量W,即算法 能在有限步内收敛。其收敛速度的快慢取决于 初始权向量W1和系数ρk。

17
W的训练过程: 例如:x1, x2, x3∈ω1 作 x1, x3的垂直线可得解区(如图) 的 直线 得解 (如 ) 假设起始权向量w1=0 ρk = 1 1 x1, x2, x3三个矢量相加得矢量2, 1. 2 垂直于矢量2的超平面H将x3错分. 2. x3与矢量2相加得矢量3,垂直于矢量3的超平面H1,将x1错分. 3.依上法得矢量4,垂直于矢量4做超平面, H2将x3错分 4. x3与矢量4相加得矢量5,矢量5在解区内,垂直于矢量5的超平面可 以把 x1, x2, x3分成一类 。 5
+ + + 0 0 + 0 + + + -
修正式
w1 w1 w1-x3 w2-x4 w3+x1 w4 w4-x3 w5 w5 w5+x2 w6 w6 w6 w6 w6 w6
修正后的权值wk+1
1 1 1 1 0 0 0 –1 1 1 1 1 1 1 0 -1
迭代次数
1
1 –1 2 0 1 –1 2 0 0 –2 2 –1 0 –2 2 -1 0 –2 2 –1 0 –1 3 0 0 –1 3 0 0 –1 3 0 0 0 0 0 –1 1 –1 –1 –1 3 3 3 3 0 0 0 0
21
例题:有两类样本 ω1=(X1,X X2)={(1,0,1) )={(1 0 1)T,(0,1,1) (0 1 1)T} ω2=(X3,X4)={(1,1,0)T,(0,1,0)T} 解:先求四个样本的增值模式 X1=(1,0,1,1)T, X2=(0,1,1,1)T , X3=(1,1,0,1)T, X4=(0,1,0,1)T 假设初始权向量 w1=(1,1,1,1) (1,1,1,1)T 第一次迭代: w1TX1=(1,1,1,1) ( , , , )( (1,0,1,1) , , , )T=3>0 所以不修正 w1TX2=(1,1,1,1) (0,1,1,1)T=3>0 所以不修正 w1TX3=(1,1,1,1) (1,1,0,1)T=3>0 所以修正w1 w2= w1 -X3=(0,0,1,0)T w2TX4=(0,0,1,0) (0,1,0,1) T =0 w3 =w2-X4=(0,-1,1,-1)T 第一次迭代后,权向量w3=(0,-1,1,-1)T,再进行第2,3,…次迭代如下表
8
一、 、 梯度下降法 梯度下降法—迭代法 迭代法
欲对不等式方程组WTX>0求解,首先定义准则函数(目 标函数)J(W),再求J(W)的极值使W优化。因此求解权 向量的问题就转化为对一向量函数求极值的问题。解 向量的问题就转化为对 向量函数求极值的问题 解 决此类问题可采用梯度下降法。 方法步骤: 从 起 始 值 W1 开 始 , 算 出 W1 处 目 标 函 数 的 梯 度 矢 量 ▽J(W1), 则下 步的W值为: 则下一步的 值为 W2 = W1-ρ1▽J(W1) W1为起始权向量;ρ1为迭代步长;J(W1) 为目标函数; ▽J(W1)为W1处的目标函数梯度矢量
2
3
4
直到在一个迭代过程中权向量相同,训练结束。 w6=w=(0 w (0,-1 1,3,0) 3 0)T 判别函数g(x) g(x)= -x2+3x3 感知器算法只对线性可分样本有收敛的解,对非线性可 分样本集会造成训练过程的振荡,这是它的缺点.
23
线性不可 样本集的 类解(取 似解) 线性不可分样本集的分类解(取近似解)
4

利用已知类别学习样本来获得权向量的训练过程如下 x1 x2 ……. xn 1 wቤተ መጻሕፍቲ ባይዱ w0
wn xn w0
w1 w2
w1 x1 w2 x2
g(x)=WTX

检测
>0 X∈ω1 <0 X∈ω2
(已知类别)
Wk 1 Wk
已知X1 ∈ω1, 通过检测调整权向量,最终使X1 ∈ω1 已知X2 ∈ω2, 通过检测调整权向量,最终使X2 ∈ω2 这样就可以通过有限的样本去决定权向量
14
定义感知准则函数:只考虑错分样本 定义:
J (W ) X X 0
W
T
X
其中X0为错分样本 当分类发生错误时就有WTX <0, 或 -WTX >0, 0 所以J(W) 总是正值,错误 总是 值 错误 分类愈少, J(W)就愈小。 理想情况为 J (W ) 0 即求最小值的问题。
22
ρk=1 1
所以修正w2
训练样本
x1 x2 x3 x4 x1 x2 x3 x4 x1 x2 x3 x4 x1 x2 x3 x4 1011 0111 1101 0101 1011 0111 1101 0101 1011 0111 1101 0101 1011 0111 1101 0101
wkTx
为各模式增1矩阵
为N×(n+1)矩阵 N为样本数,n为特征数
7
训练过程就是对已知类别的样本集求解权向量w 这是一个线性联立不等式方程组求解的过程。 求解时: ① 只有对线性可分问题,g(x) =WTX才有解; ② 联立方程的解是非单值,在不同条件下,有不 同的解 所以就产生了求最优解的问题; 同的解,所以就产生了求最优解的问题; ③ 求解W的过程就是训练过程。训练方法的共同 点是 先给出准则函数 再寻找使准则函数趋 点是,先给出准则函数,再寻找使准则函数趋 于极值的优化算法,不同的算法有不同的准则 函数。算法可以分为迭代法和非迭代法。
第五章 分类器的设计

线 线性分类器的设计 分段线性分类器的设计 非线性分类器的设计
1
§5 1 线性分类器的设计 §5-1
前面 我们讨论了线性判别函数形式为:g(x)=WTX+w0 其中 X= (X1, X2…Xn)
W= (W1, W2 … Wn ,) W n维特征向量 n维权向量
x 1 , g ( x) 0 分类准则 x 2 , g ( x) 0
相关文档
最新文档