第4章-线性判别函数

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

w
Sbw
Sww
0
Sw1Sbw w
w Sw1Sbw Sw1(m1 m2 )(m1 m2 )T w
Sw1(m1 m2 )R
w*
R
Sw1 (m1
m2)
Sw1 (m1
m2)
22
2．已知有两类数据,分别为。
Sw-1=[0.7714 0.1286 0.1286 0.7714]
W*= Sw-1 (m1-m2) =[2.7407 -0.8889]T
20
判别函数的确定
Fisher 判别
• 前面讨论了使Fisher准则函数极大的d维向量w*的计算方法，判别函数中的另一项w0 （阈值）可采用以下几种方法确定：
w0
m%1 2
m%2
w0
N1m%1 N1
N 2m%2 N2
m%
w0
m%1 2
m%2
lnP(1) / P(2)
N1 N2 2
分类规则:
ρ=0.7
1
0.4
0.2 1.42
w(t
1)
1
0.7(1)0.05
0.7(1)
0.75
0.51
30
0.5
1
1 0.5
4.4 最小平方误差准则
• 规范化增广样本向量yi，增广权向量a，正确分类要求： aTyi>0, i=1,…,N
• 线性分类器设计求一组N个线性不等式的解
xd
,1T
a
w
1
w1,...,
wd
,
w0
T
10
广义线性判别函数(4)
引言
• 线性判别函数的齐次简化：
g(X ) W T X w0 aT y
增广样本向量使特征空间增加了一维，但保持了样本间的欧氏距离不变，对于分类效果也与原决策面相同，只是在Y空间中决策面是通过坐标原点的，这在分析某些问题时具有优点，因此经常用到。
16
样本与其投影统计量间的关系
Fisher 判别
• 样本x与其投影y的统计量之间的关系：
m%i
1 Ni
y i
y
1 Ni
yKi
wT x
wT mi ,
i 1, 2
S%b (m%1 m%2 )2 (wT m1 wT m2 )2 wT (m1 m2 )(m1 m2 )T w wT Sbw
y3 x2
a3 c2
3
g(x)又可表示成： g( x) aT y ai yi
i 1
9
广义线性判别函数(3)
引言
• 按照上述原理，任何非线性函数g(x)用级数展开成高次多项式后，都可转化成线性判别函数来处理。
• 一种特殊映射方法：增广样本向量y与增广权向量a
y
x 1
x1,...,
a
则决策x 1 则决策x 2
判别函数：g(x) (x a)(x b)
二次函数的一般形式：
g( x) c0 c1x c2 x2

8
广义线性判别函数(2)
引言
二次函数的一般形式：g( x) c0 c1x c2x2
映射X→Y
y1 1
a1 c0
y
y2
x
，a
a2
c1
a* (Y TY )1Y T b Y b
Y的伪逆矩阵
34
MSE方法与Fisher方法的关系
MSE 准则
• 与Fisher方法的关系：当
N / N1
w
x xp r
, w
g(x) r w
x2
r是x到H的垂直距离
x p是x在H上的投影向量
r0
w0 w
w
x R1: g>0
r
xp
x1
R2: g<0 H: g=0
7
广义线性判别函数
引言
• 线性判别函数是形式最为简单的判别函数，但是它不能用于复杂情况。
例：设计一个一维分类器，使其功能为：
如果
x
b或 x bxa
5
两类问题的分类决策规则引言
如果
g( X ) 0, 则决策 X 1 g( X ) 0, 则决策 X 2
g( X ) 0, 则将其任意分类或拒绝
6
线性判别函数的几何意义
引言
• 决策面(decision boundary)H方程：g(x)=0
• 向量w是决策面H的法向量
• g(x)是点x到决策面H的距离的一种代数度量
被错分类的规范化增广样本集
27
梯度下降算法
感知器准则
• 梯度下降算法：对(迭代)向量沿某函数的负梯度方向修正，可较快到达该函数极小值。
J
p (a)
J p (a)
a
yY k
(y)
a(k 1) a(k ) rkJ p (a)
a(k ) rk y yY k
28
算法(step by step)
• Fisher准则函数的定义：
JF
(w)
S%b S%1 S%2
wT Sbw wT Sww
Fisher最佳投影方向的求解
w* argmax J F (w)
w
19
Fisher最佳投影方向的求解
Fisher 判别
• 采用拉格朗日乘子算法解决
w*
S
1 w
(m1
m2 )
m1-m2是一向量，对与(m1-m2)平行的向量投影可使两均值点的距离最远。但是如从使类间分得较开，同时又使类内密集程度较高这样一个综合指标来看，则需根据两类样本的分布离散程度对投影方向作相应的调整，这就体现在对m1-m2 向量按Sw-1作一线性变换，从而使Fisher准则函数达到极值点
15
一维Y空间样本分布的描述量
Fisher 判别
•
各类样本均值
m%i
1 Ni
yi
y,
i 1,2
样本类内离散度和总类内离散度
S%i ( y m%i )2, i 1,2 yi
样本类间离散度
S%w S%1 S%2 S%b (m%1 m%2 )2
以上定义描述d维空间样本点到一向量投影的分散情况，因此也就是对某向量w的投影在w上的分布。样本离散度的定义与随机变量方差相类似
a* argmin Js (a)
a
MSE方法的思想：对每个样本，设定一个“理想”的判别函数输出值，以最小平方误差为准则求最优权向量
33
MSE准则函数的伪逆解
MSE 准则
N
J s (a) 2(aT yi bi )yi 2Y T (Ya b)
i 1
J s (a*) 0 Y TYa* Y T b
引言
• 基于样本的直接确定判别函数方法：
– 设定判别函数形式，用样本集确定参数。 – 使用准则函数，表达分类器应满足的要求。
– 这些准则的“最优”并不一定与错误率最小相一致：次优分类器。
– 实例：正态分布最小错误率贝叶斯分类器在特殊情况下，是线性判别函数g(x)=wTx（决策面是超平面），能否基于样本直接确定w?
• 样本集增广矩阵Y及一组N个线性不等式的的矩阵表示：
y1T y11
Y
y1T
y21
y12 ... y1dˆ
y22
...
y2dˆ
... ... ... ... ...
yTN
yN
1
yN 2
...
yNdˆ
Ya 0
引入余量(目标向量) b=[b1, b2, …, bN]T，
选择最佳准则
训练样本集
决策规则：判别函数
决策面方程
4
线性判别函数
引言
• d维空间中的线性判别函数的一般形式：
g( X ) W T X w0
式中，x是样本向量，即样本在d维特征空间中的描述， w是权向量，w0是一个常数( 阈值权)。
X x1, x2, , xd T ; W w1, w2, , wd T
11
线性分类器设计步骤
引言
• 线性分类器设计任务：给定样本集K，确定线性判别函数g(x)=wTx的各项系数w。步骤：
1. 收集一组样本K={x1,x2,…,xN} 2. 按需要确定一准则函数J(K,w)，其值反映分类器的性
能，其极值解对应于“最好”决策。 3. 用最优化技术求准则函数J的极值解w*，从而确定判别
感知器准则
• 感知器：Perceptron，Rosenblatt，50d/20thc • 线性可分性：训练样本集中的两类样本在特征空间
可以用一个线性分界面正确无误地分开。在线性可分条件下，对合适的(广义)权向量a应有：
如果 y 1, 则aT y 0 如果 y 2, 则aT y 0
规范化样本向量：将第二类样本取其反向向量
y=
y y
如果 y 1 如果 y 2
aT yi 0 i 1,..., N
25
感知器准则函数
感知器准则
• 对于任何一个增广权向量a ，
– 对样本y正确分类，则有：aTy>0 – 对样本y错误分类，则有：aTy<0
• 定义一准则函数JP(a) (感知准则函数)：
JP (a) (aT y) yY k
17
样本与其投影统计量间的关系
Fisher 判别
S%i ( y m%i )2 y i
(wT x wT mi )2
xKi
wT
(x
mi
)(x
mi
)T
w
xKi
wT Siw
S%1 S%1 wT (S1 S2 )w wT Sww
18
Fisher准则函数
Fisher 判别
• 评价投影方向w的原则，使原样本向量在该方向上的投影能兼顾类间分布尽可能分开，类内尽可能密集的要求
所有样本被正确分类?
Y
得到合理的a 完成
分类器设计
N 29
– Example: At some stage t the perceptron algorithm
results in
w1 1, w2 1, w0 0.5
x1 x2 0.5 0
The corresponding hyperplane is
bi任意给定正常数， aTyi = bi >0
N个线性方程的的矩阵表示：
Ya b
32
平方误差准则函数
MSE 准则
• 定义误差向量 e=Ya-b： • 定义平方误差准则函数Js(a):
N
J s (a) e 2 Ya b 2 (aT yi bi )2
i 1
最小二乘近似解（MSE解）：
模式识别 Pattern Recognition
第四章线性判别函数
第四章线性判别函数
4.1 引言 4.2 Fisher线性判别 4.3 感知器准则 4.4 最小平方误差准则 4.5 多类问题 4.6 分段线性判别函数 4.7 讨论
4.1 引言
分类器功能结构
基于样本的Bayes分类器：通过估计类条件概率密度函数，设计相应的判别函数
样本类内离散度矩阵Si与总类内离散度矩阵Sw
Si (x mi )(x mi )T , i 1,2 xi
Sw S1 S2
样本类间离散度矩阵Sb：Sb (m1 m2 )(m1 m2 )T
离散度矩阵在形式上与协方差矩阵很相似，但协方差矩阵是一种期望值，而离散矩阵只是表示有限个样本在空间分布的离散程度
13
Fisher线性判别图例
Fisher 判别
Fisher准则的基本原理：找到一个最合适的投影轴，使两
类样本在该轴上投影之间的距离尽可能远，而每一类样本
的投影尽可能紧凑，从而使分类效果为最佳。
14
d维空间样本分布的描述量
Fisher 判别
• 各类样本均值向量mi
mi
1 Ni
x
xKi
i 1,2
函数，完成分类器设计。
W arg max J (K,W )
W
对于未知样本x，计算g(x)，判断其类别。
12
4.2 Fisher线性判别
• 线性判别函数y=g(x)=wTx:
– 样本向量x各分量的线性加权 – 样本向量x与权向量w的向量点积 – 如果|| w ||=1，则视作向量x在向量w上的投影
4.3 感知器准则
• 感知准则函数是五十年代由Rosenblatt提出的一种自学习判别函数生成方法，由于 Rosenblatt企图将其用于脑模型感知器 (Perceptron)，因此被称为感知准则函数。其特点是随意确定判别函数初始值，在对样本分类训练过程中逐步修正直至最终确定。
24
基本概念
y wT x w0 0 x 1 y wT x w0 0 x 2
21
Fisher公式的推导
Fisher 判别
JF
(w)
S%b S%1 S%2
wT Sbw wT Sww
令 wT Sww c 0
定义Lagrange函数: L(w, ) wT Sbw (wT Sww c)
令:
L( w, )
1. 初值: 任意给定一向量初始值a(1)
2. 迭代: 第k+1次迭代时的权向量a(k+1)等于第k次的权向量a(k) 加上被错分类的所有样本之和与rk的乘积
3. 终止: 对所有样本正确分类
任意给定一向量初始值a(1)
感知器准则
a(k+1)= a(k)+ rk×Sum (被错分类的所有样本)
训练样本集
样本分布的统计特征：
概率密度函数
x1
g1
x2
g2
.
.
.
.
.
.
xn
gc
MAX
a(x)
• 最一般情况下适用的“最优”分类器：错误率最小，
对分类器设计在理论上有指导意义。
决策规则： • 获取统计分布及其参数很判别函数困难，实际问题中并不一
决策面方程定具备获取准确统计分布的条件。
3
直接确定判别函数