模式识别5-线性分类器-第二讲
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Linear Discriminant Functions Precedure The Perceptron Algorithm
感知器模型 感知准则函数及梯度下降法
Least Squares Methods Support Vector Machines
The Perceptron Algorithm (cont.)
命名由来:这一准则函数是20世纪50年代由Rosenblatt
提出来的,试图用于脑模型感知器中,故一般称为感知 器准则函数。
5
新内容
The Perceptron Algorithm (cont.)
Gradient descent algorithm
The Cost Function
J (w*) min(J (w)) min( (w x))
w(k 1) w(k ) k X ( Xw(k ) b)
T
可以证明:如果 k 1 / k ,其中 1 是任意正常数,则这个 算法产生的权向量序列wk,k=1,2,…,收敛于满足方程式 J(W) 0
单样本修正——迭代算法
w0 , 任意初始值 T w ( k 1 ) w ( k ) r ( b w ( k ) xk ) xk k k
2 2 N i 1
J (W ) || e || || XW b || W T X bi i
2
分析准则函数,W的优化就是使J(W)最小,称为MSE准则。 若WTXi=bi, (i=0,1,2,…,N) ,那么此时的J=min(J)=0; 若某些Xi有WTXi ≠ bi ,则J>0 。当b给定后,可以采用最 优化技术搜索极小值点以求解等式方程组WTXi=bi。
T
2
对准则函数求导并令其为零,有
J(W) 2 W T X i bi X i 2 X T ( XW b) 0 i 1
N
解上方程得准则函数极小化的必要条件: XTXW=XTb
若( X T X ) 1 存在,w* ( X T X ) 1 X T b X b, X ( X T X ) 1 X T T 1 * T T T T 若 ( X X ) 不存在, w ( X X ) X b , ( X X ) 为 X X的广义逆矩阵
单样本修正法
rk rk0
WБайду номын сангаасdrow-Hoff
批量样本修正——迭代算法
w1 , 任意初始值 T w ( k 1 ) w ( k ) X ( Xw(k ) b) k
新内容
迭代过程为: ① 首先任意指定初始权向量w(0); ② 如果第k步不能满足 X T ( Xw(k ) b) 0,则按下式求第(k+1)步 的权向量w(k+1):
Our goal:
新内容
w x( )0 x
T
i j
T
The Perceptron cost function
The Cost Function J (w) ( x w x)
xY
Where Y is the subset of the vectors wrongly classified by w.
e.g.,: t
c t
9
新内容
最小平方误差准则
问题: 一次准则函数及其算法(如感知器算法):
适用于线性可分的情况
如果是线性不可分的,分类过程将不收敛
在实际问题中,往往无法事先知道模式集能否线性可
分。能否找到一种算法,使之能够
测试出模式样本集是否线性可分
并且对线性不可分的情况也能给出“次最优”的解
新内容
迭代过程为: ① 首先任意指定初始权向量w(0); ② 如果第k步不能满足 X T ( Xw(k ) b) 0,则按下式求第(k+1)步 的权向量w(k+1):
w(k 1) w(k ) rk (bk w(k ) xk ) xk
T
Widrow-Hoff算法
H-K(Ho-Kashyap)迭代算法
MSE准则函数的迭代解
w*=X+b, X+=(XTX)-1XT,计算量大
实际中常用梯度下降法:
J(W) 2 W T X i bi X i 2 X T ( XW b) i 1
N
新内容
w0 , 任意初始值 批量样本修正法 T w ( k 1 ) w ( k ) X ( Xw(k ) b) k w0 , 任意初始值 T w ( k 1 ) w ( k ) r ( b w ( k ) xk ) xk k k
The Perceptron cost function
The Cost Function
J (w) ( x w x) (w x)
T T xY xY
J(W) >=0 当且仅当w为解向量或w在解区边界上时,J(W)=0,此
时Y为空,J(w*)=minJ(w)=0,这时将不存在错分样本 , w*为要寻找的解向量
若b的某些分量取得不当,所求得的W可能不稳定
另b各分量选取不当也会影响收敛速度
新内容
批量样本及单样本修正法:余量b——常矢量
H-K(Ho-Kashyap)算法
H-K(Ho-Kashyap)迭代算法
新内容
H-K(Ho-Kashyap)迭代算法
MSE准则函数
新内容
H-K(Ho-Kashyap)算法
J(w(k),x) 其中, J (w) ( x)
xY
梯度下降法
任意给定初始向量w(1),第t+1次迭代时的权向量w(t+1)等于 J(w(k+1),x) 第t次的权向量加上被w(t)错分的样本之和乘以某个系数ρt 可以证明,对于线性可分的样本集,经过有限次修正,一定 可以找到一个解向量w*,即算法在有限步内收敛,其收敛速 度的快慢取决于初始权向量w(1)和系数ρt
【 例 】 已 知 两 类 训 练 样 本 : w1:(0,0)T,(0,1)T; w2:(1,0)T,(1,1)T,使用最小均方误差算法求解解向 0 0 1 1 量w*。 X 0 1 0 1 解 训练样本的增广矩阵: 1 1 1 1 e1的各分量均为0,则w(1)就是所求的解向量
解决思路:对线性不可分样本集,求一解矢量使得错
分的模式数目最少
最小平方误差准则
新内容
规范化增广样本向量Xi,增广权向量w,正确分类要求:
wTXi>0, i=1,…,N 线性分类器设计求一组N个线性不等式的解w* 样本集增广矩阵X及一组N个线性不等式的的矩阵表示:
X 1 X 11 X 12 .... X 1n X 2 X 21 ... ... ... X ..... ... ... ... ... X N X N 1 X N 2 ... X Nn
每次沿着垂直等值线方向移动一个小的距离,最终收敛在 中心。
6
新内容
The Perceptron Algorithm (cont.)
Gradient descent algorithm
The Cost Function
w(t 1) w(t ) t * g (t )
T
J (w) (w x)
xY
J ( w) J ( w) ( x) w xY
(1)
The iteration formula is: w(t 1) w(t ) t J (w)
w(t 1) w(t ) t x
xY
Where Y is the subset of the vectors wrongly classified by w.
WTXi>0
引入余量(目标向量) b=[b1, b2, …, bN]T, bi为任意给定正 常数, WTXi = bi >0 N个线性方程的的矩阵表示:
WTXi=b
一般N>n,矛盾方 程组,没有精确解
最小平方误差准则
定义误差向量e=XW-b≠0
新内容
: 定义平方误差准则函数J(w):
2 2 N i 1
T
求x的伪逆矩阵: 因此决策面方程为: -2x1+1=0 令c=1,b(1)=(1,1,1,1)T,则w(1)=X#b(1)=(-2,0,1)T。 误差向量:
0 0 1 1 0 2 0 1 1 1 0 0 e1 x.w(1) b(1) 1 0 1 1 0 1 1 0 1 1 1
2 2 N
J (W ) || e || || XW b || W X bi min i i 1 T
2
H-K(Ho-Kashyap)迭代算法
H-K(Ho-Kashyap)算法
新内容
H-K(Ho-Kashyap)迭代算法
关键步骤分析
新内容
新内容 H-K(Ho-Kashyap)迭代算法——例子
1 X # ( X T X ) 1 X T 1 1 1 1 2 3 / 2 1 / 2 1 / 2 1 / 2
w(k) w(k+1) O w
8
梯度法的示意图
新内容
The perceptron algorithm converges in a finite
number of iteration steps to a solution if
lim k , lim k
2 t k 0 t k 0 t t
7
The Perceptron Algorithm (cont.)
The Cost Function of Perceptron Algorithm
J(w, x)
xY
新内容
T
J (w) (w x)
Gradient descent algorithm
w(t 1) w(t ) t J (w)
J (W ) || e || || XW b || W X bi i T
2
最小二乘近似解(MSE解):
w* arg min ( J s (W ))
w
MSE方法的思想:对每个样本,设定一个“理想”的判别函 数输出值,以最小平方误差为准则求最优权向量
新内容
平方误差准则函数
T xY
梯度下降法,就是利用负梯度方向来决定每次迭代的新的
搜索方向,每次迭代能使待优化的目标函数逐步减小。梯 度下降法是2范数下的最速下降法。
最速下降法的一种简单形式是:x(k+1)=x(k)-a*g(k),其中a
称为学习速率,可以是较小的常数;g(k)是x(k)的梯度。
直观的说,就是在一个有中心的等值线中,从初始值开始,
如果方程组有唯一解,极小值点即是该解,说明训练模式集
是线性可分的;
如果方程组无解,极小值点是最小二乘解。在这里,最小二
乘的含义是对于给定的b,使J极小。在相当多的情况下等价 于误分模式数目最少。
MSE准则函数的伪逆解
2 2 N
新内容
MSE准则函数 J (W ) || e || || XW b || W X i bi min i 1
When Y=0 (empty set) a solution is achieved and
J ( w) 0
x 1 if x Y and x 1 x 1 if x Y and x 2
J ( w) 0
4
新内容
The Perceptron Algorithm (cont.)
Dr. Jing Bai baijing_nun@163.com
Review
线性分类器的目标 基本步骤 预备知识 线性可分性 样本的规范化 解向量和解区 对解区的限制 感知器模型 感知器算法 两类问题(实例) 多类问题(实例)
复 习
2
Outlines
Introduction
感知器模型 感知准则函数及梯度下降法
Least Squares Methods Support Vector Machines
The Perceptron Algorithm (cont.)
命名由来:这一准则函数是20世纪50年代由Rosenblatt
提出来的,试图用于脑模型感知器中,故一般称为感知 器准则函数。
5
新内容
The Perceptron Algorithm (cont.)
Gradient descent algorithm
The Cost Function
J (w*) min(J (w)) min( (w x))
w(k 1) w(k ) k X ( Xw(k ) b)
T
可以证明:如果 k 1 / k ,其中 1 是任意正常数,则这个 算法产生的权向量序列wk,k=1,2,…,收敛于满足方程式 J(W) 0
单样本修正——迭代算法
w0 , 任意初始值 T w ( k 1 ) w ( k ) r ( b w ( k ) xk ) xk k k
2 2 N i 1
J (W ) || e || || XW b || W T X bi i
2
分析准则函数,W的优化就是使J(W)最小,称为MSE准则。 若WTXi=bi, (i=0,1,2,…,N) ,那么此时的J=min(J)=0; 若某些Xi有WTXi ≠ bi ,则J>0 。当b给定后,可以采用最 优化技术搜索极小值点以求解等式方程组WTXi=bi。
T
2
对准则函数求导并令其为零,有
J(W) 2 W T X i bi X i 2 X T ( XW b) 0 i 1
N
解上方程得准则函数极小化的必要条件: XTXW=XTb
若( X T X ) 1 存在,w* ( X T X ) 1 X T b X b, X ( X T X ) 1 X T T 1 * T T T T 若 ( X X ) 不存在, w ( X X ) X b , ( X X ) 为 X X的广义逆矩阵
单样本修正法
rk rk0
WБайду номын сангаасdrow-Hoff
批量样本修正——迭代算法
w1 , 任意初始值 T w ( k 1 ) w ( k ) X ( Xw(k ) b) k
新内容
迭代过程为: ① 首先任意指定初始权向量w(0); ② 如果第k步不能满足 X T ( Xw(k ) b) 0,则按下式求第(k+1)步 的权向量w(k+1):
Our goal:
新内容
w x( )0 x
T
i j
T
The Perceptron cost function
The Cost Function J (w) ( x w x)
xY
Where Y is the subset of the vectors wrongly classified by w.
e.g.,: t
c t
9
新内容
最小平方误差准则
问题: 一次准则函数及其算法(如感知器算法):
适用于线性可分的情况
如果是线性不可分的,分类过程将不收敛
在实际问题中,往往无法事先知道模式集能否线性可
分。能否找到一种算法,使之能够
测试出模式样本集是否线性可分
并且对线性不可分的情况也能给出“次最优”的解
新内容
迭代过程为: ① 首先任意指定初始权向量w(0); ② 如果第k步不能满足 X T ( Xw(k ) b) 0,则按下式求第(k+1)步 的权向量w(k+1):
w(k 1) w(k ) rk (bk w(k ) xk ) xk
T
Widrow-Hoff算法
H-K(Ho-Kashyap)迭代算法
MSE准则函数的迭代解
w*=X+b, X+=(XTX)-1XT,计算量大
实际中常用梯度下降法:
J(W) 2 W T X i bi X i 2 X T ( XW b) i 1
N
新内容
w0 , 任意初始值 批量样本修正法 T w ( k 1 ) w ( k ) X ( Xw(k ) b) k w0 , 任意初始值 T w ( k 1 ) w ( k ) r ( b w ( k ) xk ) xk k k
The Perceptron cost function
The Cost Function
J (w) ( x w x) (w x)
T T xY xY
J(W) >=0 当且仅当w为解向量或w在解区边界上时,J(W)=0,此
时Y为空,J(w*)=minJ(w)=0,这时将不存在错分样本 , w*为要寻找的解向量
若b的某些分量取得不当,所求得的W可能不稳定
另b各分量选取不当也会影响收敛速度
新内容
批量样本及单样本修正法:余量b——常矢量
H-K(Ho-Kashyap)算法
H-K(Ho-Kashyap)迭代算法
新内容
H-K(Ho-Kashyap)迭代算法
MSE准则函数
新内容
H-K(Ho-Kashyap)算法
J(w(k),x) 其中, J (w) ( x)
xY
梯度下降法
任意给定初始向量w(1),第t+1次迭代时的权向量w(t+1)等于 J(w(k+1),x) 第t次的权向量加上被w(t)错分的样本之和乘以某个系数ρt 可以证明,对于线性可分的样本集,经过有限次修正,一定 可以找到一个解向量w*,即算法在有限步内收敛,其收敛速 度的快慢取决于初始权向量w(1)和系数ρt
【 例 】 已 知 两 类 训 练 样 本 : w1:(0,0)T,(0,1)T; w2:(1,0)T,(1,1)T,使用最小均方误差算法求解解向 0 0 1 1 量w*。 X 0 1 0 1 解 训练样本的增广矩阵: 1 1 1 1 e1的各分量均为0,则w(1)就是所求的解向量
解决思路:对线性不可分样本集,求一解矢量使得错
分的模式数目最少
最小平方误差准则
新内容
规范化增广样本向量Xi,增广权向量w,正确分类要求:
wTXi>0, i=1,…,N 线性分类器设计求一组N个线性不等式的解w* 样本集增广矩阵X及一组N个线性不等式的的矩阵表示:
X 1 X 11 X 12 .... X 1n X 2 X 21 ... ... ... X ..... ... ... ... ... X N X N 1 X N 2 ... X Nn
每次沿着垂直等值线方向移动一个小的距离,最终收敛在 中心。
6
新内容
The Perceptron Algorithm (cont.)
Gradient descent algorithm
The Cost Function
w(t 1) w(t ) t * g (t )
T
J (w) (w x)
xY
J ( w) J ( w) ( x) w xY
(1)
The iteration formula is: w(t 1) w(t ) t J (w)
w(t 1) w(t ) t x
xY
Where Y is the subset of the vectors wrongly classified by w.
WTXi>0
引入余量(目标向量) b=[b1, b2, …, bN]T, bi为任意给定正 常数, WTXi = bi >0 N个线性方程的的矩阵表示:
WTXi=b
一般N>n,矛盾方 程组,没有精确解
最小平方误差准则
定义误差向量e=XW-b≠0
新内容
: 定义平方误差准则函数J(w):
2 2 N i 1
T
求x的伪逆矩阵: 因此决策面方程为: -2x1+1=0 令c=1,b(1)=(1,1,1,1)T,则w(1)=X#b(1)=(-2,0,1)T。 误差向量:
0 0 1 1 0 2 0 1 1 1 0 0 e1 x.w(1) b(1) 1 0 1 1 0 1 1 0 1 1 1
2 2 N
J (W ) || e || || XW b || W X bi min i i 1 T
2
H-K(Ho-Kashyap)迭代算法
H-K(Ho-Kashyap)算法
新内容
H-K(Ho-Kashyap)迭代算法
关键步骤分析
新内容
新内容 H-K(Ho-Kashyap)迭代算法——例子
1 X # ( X T X ) 1 X T 1 1 1 1 2 3 / 2 1 / 2 1 / 2 1 / 2
w(k) w(k+1) O w
8
梯度法的示意图
新内容
The perceptron algorithm converges in a finite
number of iteration steps to a solution if
lim k , lim k
2 t k 0 t k 0 t t
7
The Perceptron Algorithm (cont.)
The Cost Function of Perceptron Algorithm
J(w, x)
xY
新内容
T
J (w) (w x)
Gradient descent algorithm
w(t 1) w(t ) t J (w)
J (W ) || e || || XW b || W X bi i T
2
最小二乘近似解(MSE解):
w* arg min ( J s (W ))
w
MSE方法的思想:对每个样本,设定一个“理想”的判别函 数输出值,以最小平方误差为准则求最优权向量
新内容
平方误差准则函数
T xY
梯度下降法,就是利用负梯度方向来决定每次迭代的新的
搜索方向,每次迭代能使待优化的目标函数逐步减小。梯 度下降法是2范数下的最速下降法。
最速下降法的一种简单形式是:x(k+1)=x(k)-a*g(k),其中a
称为学习速率,可以是较小的常数;g(k)是x(k)的梯度。
直观的说,就是在一个有中心的等值线中,从初始值开始,
如果方程组有唯一解,极小值点即是该解,说明训练模式集
是线性可分的;
如果方程组无解,极小值点是最小二乘解。在这里,最小二
乘的含义是对于给定的b,使J极小。在相当多的情况下等价 于误分模式数目最少。
MSE准则函数的伪逆解
2 2 N
新内容
MSE准则函数 J (W ) || e || || XW b || W X i bi min i 1
When Y=0 (empty set) a solution is achieved and
J ( w) 0
x 1 if x Y and x 1 x 1 if x Y and x 2
J ( w) 0
4
新内容
The Perceptron Algorithm (cont.)
Dr. Jing Bai baijing_nun@163.com
Review
线性分类器的目标 基本步骤 预备知识 线性可分性 样本的规范化 解向量和解区 对解区的限制 感知器模型 感知器算法 两类问题(实例) 多类问题(实例)
复 习
2
Outlines
Introduction