线性判别函数解读
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
t 1
Y Y Y Yt
t 1
称为伪逆矩阵
例5.2
有两类模式的训练样本: ω1:{ (0,0), (0,1) } ω2:{ (1,0), (1,1) } 用LMSE算法求取判别函数,将两类样 本分开。
权值矢量的求解(迭代求解法)
1. 2. 3. 4. 5.
begin initialize a(0), b, θ, η(•), k0; do kk+1;
n
Kuhn-Tucker构造法
因此SVM的优化问题可以转化为一个经典的二次规 划问题:
1 n L α i i j zi z j y it y j 2 i , j 1 i 1
n
约束条件:
z
i 1 i
n
i
0
i 0,
i 1,, n
SVM解的讨论
5.4 最小平方误差算法(LMSE)
LMSE方法的基本思想是将求解线性不等式 组的问题转化为求解线性方程组: y10 y11 y1d a0 b1 y y20 y2 d a1 b2 20 y a b y y n2 nd d n0 n
i 1 n
L w, w0 , α w0
zi i 0
i 1
n
Kuhn-Tucker构造法
因此有:
w zi i y i
i 1
n
z
i 1 i
n
i
0
带入Lagrange函数,有:
1 n L w, w0 , α i i j zi z j y it y j 2 i , j 1 i 1
两类问题的感知器网络
x0=1 a0 a1 x2
. . .
x1
a2
y
ad
xd
多类问题的感知器网络
x0=1 y1
x1 y2 x2
. . . . . .
yc
xd
两层感知器网络的训练样本
给定样本集合(y1,t1), (y2,t2), …, (yn,tn),其中yi 为增广特征矢量,ti称为期望输出; c个输出层神经元时,可设定期望输出为:
支持矢量
距离最优分类界面最近的这些训练样本 称为支持矢量; 最优分类界面完全由支持矢量决定,然 而支持矢量的寻找比较困难。
SVM的准则函数
给定两类问题的线性可分样本集合{(y1,z1), …, (yn,zn)}, 其中z为样本的类别标号:
1, y i 1 zi 1, y i 2
例5.1
有两类模式的训练样本: ω1:{ (0,0), (0,1) } ω2:{ (1,0), (1,1) } 用感知器算法求取判别函数,将两类样 本分开。
感知器算法的特点
当样本线性可分情况下,学习率 合适时, 算法具有收敛性; 收敛速度较慢;
当样本线性不可分情况下,算法不收敛,且 无法判断样本是否线性可分。
满足第2个条件的yi称为支持矢量。
SVM解的讨论
根据找到的支持矢量yi以及相应的Lagrange 乘子α i,计算权矢量w:
w zi i y i
i 1 n
偏置w0可以用支持矢量满足的条件求得:
zi w t y i w0 1
5.6 多类别线性判别函数的学习
方法一:根据5.1节介绍的前两种情况,分别 转换为c个两类问题,或c(c-1)/2个两类问题 分别处理; 方法二:对于情况三,可以采用Kesler构造 法训练; 方法三:设计感知器网络进行识别。
a k 1 a k k J a k
其中η (k)称为学习率,或称步长。
5.3 感知器算法(Perceptron)
最直观的准则函数定义是最少错分样本数准则: JN(a) = 样本集合中被错误分类的样本数;
感知器准则
以错分样本到判别界面 距离之和作为准则:
t gij x aij x,
i j
多类问题(情况二)分类界面
多类问题(情况二)判别准则
如果对任意j≠i ,有gij(x)≥0 ,则决策x属 于ω i 。 其它情况,则拒识。
多类问题(情况三)
情况三是情况二的特例,不存在拒识区域。
多类问题(情况三)判别函数
c个类别需要c个线性函数:
训练样本的规范化
非规范化:
at y i 0, y i 1 t a y i 0, y i 2
规范化:
at y i 0, y i 1 t a y i 0, y i 2
解区域的几何解释(特征空间中)
特征空间中:矢量a是垂直于分类界面的矢量:
5.5 支持矢量机(SVM, Support Vector Machine)
函数间隔:样本xi到分类界 面g(x)=0的函数间隔 bi 定 义为:
bi g xi w xi w0
t
xi γi
几何间隔:
bi i w
g(x)=wTx+w0=0
最优分类界面
样本集与分类界面之间 的间隔 定义为样本与 分类界面之间几何间隔 的最小值。 最优分类界面:给定线 性可分样本集,能够将 样本分开的最大间隔超 平面。
这是一个典型的不等式约束条件下的二次优化 问题,其解法的基础是Kuhn-Tucker定理; 首先求解的是n个Lagrange乘子,n为训练样本 数。但根据Kuhn-Tucker定理,有:
源自文库
zi w t y i w0 1,
i 0
zi w y i w0 1,
t
i 0
Kesler构造法(扩展的感知器算法)
1. 2.
初始化c个权向量ai(1),k1; 输入增广特征矢量yk,计算c个判别函数的输出:
di yk aT i k yk
3.
4.
修改权矢量: 若yk属于ω i类,而存在di(yk)<dj(yk),则: ai(k+1) = ai(k) + yk; aj(k+1) = aj(k) - yk al(k+1) = al(k),l≠j, i 重复上述过程,直到全部样本被正确分类为止。
第1类样本:( 1,-1,-1,-1) 第2类样本:(-1, 1,-1,-1) 第3类样本:(-1,-1, 1,-1) 第4类样本:(-1,-1,-1, 1)
编码输出时:
第1类样本:(-1,-1) 第3类样本:( 1,-1) 第2类样本:(-1, 1) 第4类样本:( 1, 1)
两层感知器网络的训练方法
可以采用最小均方误差算法,权值调整公式 为:
t
x=(1, x1, x2,…, xd)t: 增广的特征矢量; a=(w0, w1, w2, …, wd)t: 增广的权矢量;
两类问题线性判别准则
0, x 1 t g x w x w0 0, x 2 0, 拒识
线性分类器的分类界面
分类界面的几何解释
t
的条件下,最小化准则函数:
J SVM
1 w 2
2
Kuhn-Tucker构造法
构造Lagrange函数
n 1 2 t L w, w0 , α w i z w y i w0 1 , i 0 i 2 i 1
分别对参数w和w0求导:
L w, w0 , α w w zi i y i 0
第五章 线性判别函数
5.1 线性判别函数和判别界面
线性不可分情况
线性判别函数
g x w x w0
t
x=(x1, x2,…, xd)t: 特征矢量; w=(w1, w2, …, wd)t: 权矢量; w0:偏置(bias)。
线性判别函数的增广形式
g x a x
Ya = b,
b0
最小平方误差的准则函数
定义误差矢量e,用e长度的平方作为 准则函数:
e Ya b
J S a Ya b
2
权值矢量的求解(伪逆求解法)
J S a 2Yt Ya b 0
Yt Ya Yt b
a Y Y Y t b Y b
4.
5.
6.
until k y yY return a end
k
感知器算法(单样本调整版本)
1. 2. 3.
4.
5.
6.
begin initialize a 0 , k0 do k(k+1)mod n if yk is misclassified by a then a k 1 a k y k until all patterns properly classified return a end
gi x a x
t i
多类问题(情况一)分类界面
多类问题(情况一)判别规则
若存在i,使得gi(x)>0, gj(x)<0,j≠i, 则判别x属于ω i类; 其它情况,拒识。
多类问题(情况二)
每两个类别之间可以用一个超平面分开; c个类别的问题需要c(c-1)/2个线性分类 界面; 第i类与第j类之间的判别函数为:
1.
2.
3.
4.
线性分类界面H是d维空间中的一个超平面; 分类界面将d维空间分成两部分,R1,R2分别 属于两个类别; 判别函数的权矢量w是一个垂直于分类界面H 的矢量,其方向指向区域R1 ; 偏置w0与原点到分类界面H的距离有关:
w0 r0 w
多类问题(情况一)
每一类模式可以用一个超平面与其它 类别分开; 这种情况可以把c个类别的多类问题分 解为c个两类问题解决,需要c个线性 分类界面; 第i类与其它类别之间的判别函数:
解区域的几何解释(权空间中)
权空间中,atyi=0是一个通过原点的超平面, yi是法向量,而a是空间中一个点。
一般求解方法—梯度下降法
求解不等式组采用的最优化的方法:
1. 2.
定义一个准则函数J(a),当a是解向量时,J(a)为最小; 采用最优化方法求解标量函数J(a)的极小值。
最优化方法采用最多的是梯度下降法,设定初始 权值矢量a(1),然后沿梯度的负方向迭代计算:
a k 1 a k k bi at y i y i
i 1 n
6.
7.
until return a end
k bi at y i y i
i 1
n
LMSE算法的特点
算法的收敛依靠η(k)的衰减,一般取 η(k)=η(1)/k; 算法对于线性不可分的训练样本也能够收敛 于一个均方误差最小解; 取b=1时,当样本数趋于无穷多时,算法的 解以最小均方误差逼近贝叶斯判别函数; 当训练样本线性可分的情况下,算法未必收 敛于一个分类超平面。
J P a at y
yY
J P
yY
y
感知器算法(批量调整版本)
1. 2. 3.
begin initialize a 0 , ,θ, k0 do kk+1 a k 1 a k k y
yY k
能够将样本线性分开的分类界面满足:
zi w t y i w0 1
亦即可以通过调整权值w和w0将样本集合的最小函数间 隔调整为1。
SVM的准则函数
样本集到分类界面的几何间隔:
1 w
最大,亦即||w||最小,所以SVM可以变为如下的优
化问题:在满足
zi w y i w0 1
gi x ait x wi1x1 wi 2 x2 wid xd wi 0
判别准则:
1 j M
gi x max g j x , x i
5.2 线性判别函数的学习
问题的提出:假设有一个包含n个样本的集合 y1, y2, …, yn, 一些标记为ω 1,另一些标记为 ω2,用这些样本来确定一个判别函数 g(x)=atx的权矢量a。 在线性可分的情况下,希望得到的判别函数 能够将所有的训练样本正确分类; 线性不可分的情况下,判别函数产生错误的 概率最小。
Y Y Y Yt
t 1
称为伪逆矩阵
例5.2
有两类模式的训练样本: ω1:{ (0,0), (0,1) } ω2:{ (1,0), (1,1) } 用LMSE算法求取判别函数,将两类样 本分开。
权值矢量的求解(迭代求解法)
1. 2. 3. 4. 5.
begin initialize a(0), b, θ, η(•), k0; do kk+1;
n
Kuhn-Tucker构造法
因此SVM的优化问题可以转化为一个经典的二次规 划问题:
1 n L α i i j zi z j y it y j 2 i , j 1 i 1
n
约束条件:
z
i 1 i
n
i
0
i 0,
i 1,, n
SVM解的讨论
5.4 最小平方误差算法(LMSE)
LMSE方法的基本思想是将求解线性不等式 组的问题转化为求解线性方程组: y10 y11 y1d a0 b1 y y20 y2 d a1 b2 20 y a b y y n2 nd d n0 n
i 1 n
L w, w0 , α w0
zi i 0
i 1
n
Kuhn-Tucker构造法
因此有:
w zi i y i
i 1
n
z
i 1 i
n
i
0
带入Lagrange函数,有:
1 n L w, w0 , α i i j zi z j y it y j 2 i , j 1 i 1
两类问题的感知器网络
x0=1 a0 a1 x2
. . .
x1
a2
y
ad
xd
多类问题的感知器网络
x0=1 y1
x1 y2 x2
. . . . . .
yc
xd
两层感知器网络的训练样本
给定样本集合(y1,t1), (y2,t2), …, (yn,tn),其中yi 为增广特征矢量,ti称为期望输出; c个输出层神经元时,可设定期望输出为:
支持矢量
距离最优分类界面最近的这些训练样本 称为支持矢量; 最优分类界面完全由支持矢量决定,然 而支持矢量的寻找比较困难。
SVM的准则函数
给定两类问题的线性可分样本集合{(y1,z1), …, (yn,zn)}, 其中z为样本的类别标号:
1, y i 1 zi 1, y i 2
例5.1
有两类模式的训练样本: ω1:{ (0,0), (0,1) } ω2:{ (1,0), (1,1) } 用感知器算法求取判别函数,将两类样 本分开。
感知器算法的特点
当样本线性可分情况下,学习率 合适时, 算法具有收敛性; 收敛速度较慢;
当样本线性不可分情况下,算法不收敛,且 无法判断样本是否线性可分。
满足第2个条件的yi称为支持矢量。
SVM解的讨论
根据找到的支持矢量yi以及相应的Lagrange 乘子α i,计算权矢量w:
w zi i y i
i 1 n
偏置w0可以用支持矢量满足的条件求得:
zi w t y i w0 1
5.6 多类别线性判别函数的学习
方法一:根据5.1节介绍的前两种情况,分别 转换为c个两类问题,或c(c-1)/2个两类问题 分别处理; 方法二:对于情况三,可以采用Kesler构造 法训练; 方法三:设计感知器网络进行识别。
a k 1 a k k J a k
其中η (k)称为学习率,或称步长。
5.3 感知器算法(Perceptron)
最直观的准则函数定义是最少错分样本数准则: JN(a) = 样本集合中被错误分类的样本数;
感知器准则
以错分样本到判别界面 距离之和作为准则:
t gij x aij x,
i j
多类问题(情况二)分类界面
多类问题(情况二)判别准则
如果对任意j≠i ,有gij(x)≥0 ,则决策x属 于ω i 。 其它情况,则拒识。
多类问题(情况三)
情况三是情况二的特例,不存在拒识区域。
多类问题(情况三)判别函数
c个类别需要c个线性函数:
训练样本的规范化
非规范化:
at y i 0, y i 1 t a y i 0, y i 2
规范化:
at y i 0, y i 1 t a y i 0, y i 2
解区域的几何解释(特征空间中)
特征空间中:矢量a是垂直于分类界面的矢量:
5.5 支持矢量机(SVM, Support Vector Machine)
函数间隔:样本xi到分类界 面g(x)=0的函数间隔 bi 定 义为:
bi g xi w xi w0
t
xi γi
几何间隔:
bi i w
g(x)=wTx+w0=0
最优分类界面
样本集与分类界面之间 的间隔 定义为样本与 分类界面之间几何间隔 的最小值。 最优分类界面:给定线 性可分样本集,能够将 样本分开的最大间隔超 平面。
这是一个典型的不等式约束条件下的二次优化 问题,其解法的基础是Kuhn-Tucker定理; 首先求解的是n个Lagrange乘子,n为训练样本 数。但根据Kuhn-Tucker定理,有:
源自文库
zi w t y i w0 1,
i 0
zi w y i w0 1,
t
i 0
Kesler构造法(扩展的感知器算法)
1. 2.
初始化c个权向量ai(1),k1; 输入增广特征矢量yk,计算c个判别函数的输出:
di yk aT i k yk
3.
4.
修改权矢量: 若yk属于ω i类,而存在di(yk)<dj(yk),则: ai(k+1) = ai(k) + yk; aj(k+1) = aj(k) - yk al(k+1) = al(k),l≠j, i 重复上述过程,直到全部样本被正确分类为止。
第1类样本:( 1,-1,-1,-1) 第2类样本:(-1, 1,-1,-1) 第3类样本:(-1,-1, 1,-1) 第4类样本:(-1,-1,-1, 1)
编码输出时:
第1类样本:(-1,-1) 第3类样本:( 1,-1) 第2类样本:(-1, 1) 第4类样本:( 1, 1)
两层感知器网络的训练方法
可以采用最小均方误差算法,权值调整公式 为:
t
x=(1, x1, x2,…, xd)t: 增广的特征矢量; a=(w0, w1, w2, …, wd)t: 增广的权矢量;
两类问题线性判别准则
0, x 1 t g x w x w0 0, x 2 0, 拒识
线性分类器的分类界面
分类界面的几何解释
t
的条件下,最小化准则函数:
J SVM
1 w 2
2
Kuhn-Tucker构造法
构造Lagrange函数
n 1 2 t L w, w0 , α w i z w y i w0 1 , i 0 i 2 i 1
分别对参数w和w0求导:
L w, w0 , α w w zi i y i 0
第五章 线性判别函数
5.1 线性判别函数和判别界面
线性不可分情况
线性判别函数
g x w x w0
t
x=(x1, x2,…, xd)t: 特征矢量; w=(w1, w2, …, wd)t: 权矢量; w0:偏置(bias)。
线性判别函数的增广形式
g x a x
Ya = b,
b0
最小平方误差的准则函数
定义误差矢量e,用e长度的平方作为 准则函数:
e Ya b
J S a Ya b
2
权值矢量的求解(伪逆求解法)
J S a 2Yt Ya b 0
Yt Ya Yt b
a Y Y Y t b Y b
4.
5.
6.
until k y yY return a end
k
感知器算法(单样本调整版本)
1. 2. 3.
4.
5.
6.
begin initialize a 0 , k0 do k(k+1)mod n if yk is misclassified by a then a k 1 a k y k until all patterns properly classified return a end
gi x a x
t i
多类问题(情况一)分类界面
多类问题(情况一)判别规则
若存在i,使得gi(x)>0, gj(x)<0,j≠i, 则判别x属于ω i类; 其它情况,拒识。
多类问题(情况二)
每两个类别之间可以用一个超平面分开; c个类别的问题需要c(c-1)/2个线性分类 界面; 第i类与第j类之间的判别函数为:
1.
2.
3.
4.
线性分类界面H是d维空间中的一个超平面; 分类界面将d维空间分成两部分,R1,R2分别 属于两个类别; 判别函数的权矢量w是一个垂直于分类界面H 的矢量,其方向指向区域R1 ; 偏置w0与原点到分类界面H的距离有关:
w0 r0 w
多类问题(情况一)
每一类模式可以用一个超平面与其它 类别分开; 这种情况可以把c个类别的多类问题分 解为c个两类问题解决,需要c个线性 分类界面; 第i类与其它类别之间的判别函数:
解区域的几何解释(权空间中)
权空间中,atyi=0是一个通过原点的超平面, yi是法向量,而a是空间中一个点。
一般求解方法—梯度下降法
求解不等式组采用的最优化的方法:
1. 2.
定义一个准则函数J(a),当a是解向量时,J(a)为最小; 采用最优化方法求解标量函数J(a)的极小值。
最优化方法采用最多的是梯度下降法,设定初始 权值矢量a(1),然后沿梯度的负方向迭代计算:
a k 1 a k k bi at y i y i
i 1 n
6.
7.
until return a end
k bi at y i y i
i 1
n
LMSE算法的特点
算法的收敛依靠η(k)的衰减,一般取 η(k)=η(1)/k; 算法对于线性不可分的训练样本也能够收敛 于一个均方误差最小解; 取b=1时,当样本数趋于无穷多时,算法的 解以最小均方误差逼近贝叶斯判别函数; 当训练样本线性可分的情况下,算法未必收 敛于一个分类超平面。
J P a at y
yY
J P
yY
y
感知器算法(批量调整版本)
1. 2. 3.
begin initialize a 0 , ,θ, k0 do kk+1 a k 1 a k k y
yY k
能够将样本线性分开的分类界面满足:
zi w t y i w0 1
亦即可以通过调整权值w和w0将样本集合的最小函数间 隔调整为1。
SVM的准则函数
样本集到分类界面的几何间隔:
1 w
最大,亦即||w||最小,所以SVM可以变为如下的优
化问题:在满足
zi w y i w0 1
gi x ait x wi1x1 wi 2 x2 wid xd wi 0
判别准则:
1 j M
gi x max g j x , x i
5.2 线性判别函数的学习
问题的提出:假设有一个包含n个样本的集合 y1, y2, …, yn, 一些标记为ω 1,另一些标记为 ω2,用这些样本来确定一个判别函数 g(x)=atx的权矢量a。 在线性可分的情况下,希望得到的判别函数 能够将所有的训练样本正确分类; 线性不可分的情况下,判别函数产生错误的 概率最小。