第4章-线性判别函数
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
w
x xp r
, w
g(x) r w
x2
r是x到H的垂直距离
x p是x在H上的投影向量
r0
w0 w
w
x R1: g>0
r
xp
x1
R2: g<0 H: g=0
7
广义线性判别函数
引言
• 线性判别函数是形式最为简单的判别函数, 但是它不能用于复杂情况。
例:设计一个一维分类器,使其功能为:
如果
x
b或 x bxa
a* argmin Js (a)
a
MSE方法的思想:对每个样本,设定一个“理想”的判别函 数输出值,以最小平方误差为准则求最优权向量
33
MSE准则函数的伪逆解
MSE 准则
N
J s (a) 2(aT yi bi )yi 2Y T (Ya b)
i 1
J s (a*) 0 Y TYa* Y T b
xd
,1T
a
w
1
w1,...,
wd
,
w0
T
10
广义线性判别函数(4)
引言
• 线性判别函数的齐次简化:
g(X ) W T X w0 aT y
增广样本向量使特征空间增加了一维,但保 持了样本间的欧氏距离不变,对于分类效果 也与原决策面相同,只是在Y空间中决策面 是通过坐标原点的,这在分析某些问题时具 有优点,因此经常用到。
4.3 感知器准则
• 感知准则函数是五十年代由Rosenblatt提出 的一种自学习判别函数生成方法,由于 Rosenblatt企图将其用于脑模型感知器 (Perceptron),因此被称为感知准则函数。其 特点是随意确定判别函数初始值,在对样本 分类训练过程中逐步修正直至最终确定。
24
基本概念
5
两类问题的分类决策规则 引言
如果
g( X ) 0, 则决策 X 1 g( X ) 0, 则决策 X 2
g( X ) 0, 则将其任意分类或拒绝
6
线性判别函数的几何意义
引言
• 决策面(decision boundary)H方程:g(x)=0
• 向量w是决策面H的法向量
• g(x)是点x到决策面H的距离的一种代数度量
17
样本与其投影统计量间的关系
Fisher 判别
S%i ( y m%i )2 y i
(wT x wT mi )2
xKi
wT
(x
mi
)(x
mi
)T
w
xKi
wT Siw
S%1 S%1 wT (S1 S2 )w wT Sww
18
Fisher准则函数
Fisher 判别
• 评价投影方向w的原则,使原样本向量在该 方向上的投影能兼顾类间分布尽可能分开, 类内尽可能密集的要求
• Fisher准则函数的定义:
JF
(w)
S%b S%1 S%2
wT Sbw wT Sww
Fisher最佳投影方向的求解
w* argmax J F (w)
w
19
Fisher最佳投影方向的求解
Fisher 判别
• 采用拉格朗日乘子算法解决
w*
S
1 w
(m1
m2 )
m1-m2是一向量,对与(m1-m2)平行的向量投影可使两 均值点的距离最远。但是如从使类间分得较开,同时又使 类内密集程度较高这样一个综合指标来看,则需根据两类 样本的分布离散程度对投影方向作相应的调整,这就体现 在对m1-m2 向量按Sw-1作一线性变换,从而使Fisher准 则函数达到极值点
被错分类的规范 化增广样本集
27
梯度下降算法
感知器 准则
• 梯度下降算法:对(迭代)向量沿某函数的负 梯度方向修正,可较快到达该函数极小值。
J
p (a)
J p (a)
a
yY k
(y)
a(k 1) a(k ) rkJ p (a)
a(k ) rk y yY k
28
算法(step by step)
a
则决策x 1 则决策x 2
判别函数:g(x) (x a)(x b)
二次函数的一般形式:
g( x) c0 c1x c2 x2
8
广义线性判别函数(2)
引言
二次函数的一般形式:g( x) c0 c1x c2x2
映射X→Y
y1 1
a1 c0
y
y2
x
,a
a2
c1
y3 x2
a3 c2
3
g(x)又可表示成: g( x) aT y ai yi
i 1
9
广义线性判别函数(3)
引言
• 按照上述原理,任何非线性函数g(x)用级数 展开成高次多项式后,都可转化成线性判别 函数来处理。
• 一种特殊映射方法:增广样本向量y与增广 权向量a
y
x 1
x1,...,
选择最佳准则
训练样本集
决策规则: 判别函数
决策面方程
4
线性判别函数
引言
• d维空间中的线性判别函数的一般形式:
g( X ) W T X w0
式中,x是样本向量,即样本在d维特征空 间中的描述, w是权向量,w0是一个常数( 阈值权)。
X x1, x2, , xd T ; W w1, w2, , wd T
模式识别 Pattern Recognition
第四章 线性判别函数
第四章 线性判别函数
4.1 引言 4.2 Fisher线性判别 4.3 感知器准则 4.4 最小平方误差准则 4.5 多类问题 4.6 分段线性判别函数 4.7 讨论
4.1 引言
分类器 功能结构
基于样本的Bayes分 类器:通过估计类条 件概率密度函数,设 计相应的判别函数
20
判别函数的确定
Fisher 判别
• 前面讨论了使Fisher准则函数极大的d维向 量w*的计算方法,判别函数中的另一项w0 (阈值)可采用以下几种方法确定:
w0
m%1 2
m%2
w0
N1m%1 N1
N 2m%2 N2
m%
w0
m%1 2
m%2
lnP(1) / P(2)
N1 N2 2
分类规则:
bi任意给定正常数, aTyi = bi >0
N个线性方程的的矩阵表示:
Ya b
32
平方误差准则函数
MSE 准则
• 定义误差向量 e=Ya-b: • 定义平方误差准则函数Js(a):
N
J s (a) e 2 Ya b 2 (aT yi bi )2
i 1
最小二乘近似解(MSE解):
16
样本与其投影统计量间的关系
Fisher 判别
• 样本x与其投影y的统计量之间的关系:
m%i
1 Ni
y i
y
1 Ni
yKi
wT x
wT mi ,
i 1, 2
S%b (m%1 m%2 )2 (wT m1 wT m2 )2 wT (m1 m2 )(m1 m2 )T w wT Sbw
w
Sbw
Sww
0
Sw1Sbw w
w Sw1Sbw Sw1(m1 m2 )(m1 m2 )T w
Sw1(m1 m2 )R
w*
R
Sw1 (m1
m2)
Sw1 (m1
m2)
22
2.已知有两类数据,分别为 。
Sw-1=[0.7714 0.1286 0.1286 0.7714]
W*= Sw-1 (m1-m2) =[2.7407 -0.8889]T
1. 初值: 任意给定一向量 初始值a(1)
2. 迭代: 第k+1次迭代时 的权向量a(k+1)等于 第k次的权向量a(k) 加上被错分类的所有 样本之和与rk的乘积
3. 终止: 对所有样本正确 分类
任意给定一向量 初始值a(1)
感知器 准则
a(k+1)= a(k)+ rk×Sum (被错分类的所有样本)
15
一维Y空间样本分布的描述量
Fisher 判别
•
各类样本均值
m%i Biblioteka Baidu
1 Ni
yi
y,
i 1,2
样本类内离散度和总类内离散度
S%i ( y m%i )2, i 1,2 yi
样本类间离散度
S%w S%1 S%2 S%b (m%1 m%2 )2
以上定义描述d维空间样本点到一向量投影的分 散情况,因此也就是对某向量w的投影在w上的 分布。样本离散度的定义与随机变量方差相类似
13
Fisher线性判别图例
Fisher 判别
Fisher准则的基本原理:找到一个最合适的投影轴,使两
类样本在该轴上投影之间的距离尽可能远,而每一类样本
的投影尽可能紧凑,从而使分类效果为最佳。
14
d维空间样本分布的描述量
Fisher 判别
• 各类样本均值向量mi
mi
1 Ni
x
xKi
i 1,2
感知器 准则
• 感知器:Perceptron,Rosenblatt,50d/20thc • 线性可分性:训练样本集中的两类样本在特征空间
可以用一个线性分界面正确无误地分开。在线性可 分条件下,对合适的(广义)权向量a应有:
如果 y 1, 则aT y 0 如果 y 2, 则aT y 0
规范化样本向量 :将第二类样本取其反向向量
• 样本集增广矩阵Y及一组N个线性不等式的的矩阵表示:
y1T y11
Y
y1T
y21
y12 ... y1dˆ
y22
...
y2dˆ
... ... ... ... ...
yTN
yN
1
yN 2
...
yNdˆ
Ya 0
引入余量(目标向量) b=[b1, b2, …, bN]T,
引言
• 基于样本的直接确定判别函数方法:
– 设定判别函数形式,用样本集确定参数。 – 使用准则函数,表达分类器应满足的要求。
– 这些准则的“最优”并不一定与错误率最小相 一致:次优分类器。
– 实例:正态分布最小错误率贝叶斯分类器在特 殊情况下,是线性判别函数g(x)=wTx(决策面 是超平面),能否基于样本直接确定w?
11
线性分类器设计步骤
引言
• 线性分类器设计任务:给定样本集K,确定线性 判别函数g(x)=wTx的各项系数w。步骤:
1. 收集一组样本K={x1,x2,…,xN} 2. 按需要确定一准则函数J(K,w),其值反映分类器的性
能,其极值解对应于“最好”决策。 3. 用最优化技术求准则函数J的极值解w*,从而确定判别
y=
y y
如果 y 1 如果 y 2
aT yi 0 i 1,..., N
25
感知器准则函数
感知器 准则
• 对于任何一个增广权向量a ,
– 对样本y正确分类,则有:aTy>0 – 对样本y错误分类,则有:aTy<0
• 定义一准则函数JP(a) (感知准则函数):
JP (a) (aT y) yY k
函数,完成分类器设计。
W arg max J (K,W )
W
对于未知样本x,计算g(x),判断其类别。
12
4.2 Fisher线性判别
• 线性判别函数y=g(x)=wTx:
– 样本向量x各分量的线性加权 – 样本向量x与权向量w的向量点积 – 如果|| w ||=1,则视作向量x在向量w上的投影
训练样本集
样本分布的 统计特征:
概率密度函数
x1
g1
x2
g2
.
.
.
.
.
.
xn
gc
MAX
a(x)
• 最一般情况下适用的“最 优”分类器:错误率最小,
对分类器设计在理论上有 指导意义。
决策规则: • 获取统计分布及其参数很 判别函数 困难,实际问题中并不一
决策面方程 定具备获取准确统计分布 的条件。
3
直接确定判别函数
a* (Y TY )1Y T b Y b
Y的 伪逆矩阵
34
MSE方法与Fisher方法的关系
MSE 准则
• 与Fisher方法的关系:当
N / N1
样本类内离散度矩阵Si与总类内离散度矩阵Sw
Si (x mi )(x mi )T , i 1,2 xi
Sw S1 S2
样本类间离散度矩阵Sb:Sb (m1 m2 )(m1 m2 )T
离散度矩阵在形式上与协方差矩阵很相似,但协 方差矩阵是一种期望值,而离散矩阵只是表示有 限个样本在空间分布的离散程度
所有样本被 正确分类?
Y
得到合理的a 完成
分类器设计
N 29
– Example: At some stage t the perceptron algorithm
results in
w1 1, w2 1, w0 0.5
x1 x2 0.5 0
The corresponding hyperplane is
y wT x w0 0 x 1 y wT x w0 0 x 2
21
Fisher公式的推导
Fisher 判别
JF
(w)
S%b S%1 S%2
wT Sbw wT Sww
令 wT Sww c 0
定义Lagrange函数: L(w, ) wT Sbw (wT Sww c)
令:
L( w, )
ρ=0.7
1
0.4
0.2 1.42
w(t
1)
1
0.7(1)0.05
0.7(1)
0.75
0.51
30
0.5
1
1 0.5
4.4 最小平方误差准则
• 规范化增广样本向量yi,增广权向量a,正确分类要求: aTyi>0, i=1,…,N
• 线性分类器设计求一组N个线性不等式的解