模式识别(4-1)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

§4.2 Fisher线性判别
Fisher线性判别函数是研究线性判别函数中最 有影响的方法之一。对线性判别函数的研究就 是从R.A.Fisher在1936年发表的论文开始的。
§4.2 Fisher线性判别
设计线性分类器: g(x) wT x + w0
➢首先要确定准则函数; ➢然后再利用训练样本集确定该分类器的参数,以求使所确 定的准则达到最佳。
w
x = xp + r w , g(x)= r w
x2
x p是x在H 上的投影向量 r是x到H的垂直距离
w 是w方向上的单位向量 w
w x
r
xp
x1
H: g=0
线性判别函数的几何意义
令 g(x) wT x w0 = r w
若x为原点,则g(x) w0
原点到超平面H的距离:r0
w0 w
w0 0 原点在H的正侧 w0 0 原点在H的负侧 w0 0 H通过原点
一些基本参量的定义
2.在一维Y空间
➢各类样本均值
1 mi Ni
y,
yYi
i 1, 2
➢ 样本类内离散度、总类内离散度和类间离散度
Si ( y mi )2, yYi
Sw S1 S2 Sb (m1 m2 )2
i 1, 2
§4.2 Fisher线性判别
根据Fisher选择投影方向w的原则:使原样本向量在该方向上 的投影能兼顾:
mi
1 Ni
yYi
y
1 Ni
xX i
wT x =
wT mi ,
i 1, 2
Sb (m1 m2 )2 (wT m1 - wT m2 )2 = wT (m1 - m2 )(m1 - m2 )T w = wT Sbw
§4.2 Fisher线性判别
Si ( y mi )2 (wT x - wT mi )2
线性判别函数的齐次简化使特征空间增加了一维,但保持 了样本间的欧氏距离不变,对于分类效果也与原决策面相同, 只是在Y空间中决策面是通过坐标原点的,这在分析某些问题 时具有优点,因此经常用到。
广义线性判别函数
例如一个一维特征空间的分类器,其决策面方程为 x - c=0
在一维空间中为一个点。经齐次简化后可得:
3
g(x) aT y ai yi i 1
此时g(x)被称为广义线性判别函数,a称为广义权向量。
广义线性判别函数
按照上述原理,任何非线性函数g(x)用级数展开成高次 多项式后,都可转化成广义线性判别函数来处理。
aTy=0在Y空间确定了一个通过原点的超平面。这样我们 就可以利用线性判别函数的简单性来解决复杂的问题。
思考一下,如果在两维空间存在一条不过原点的直线, ax1+bx2+c=0 (A),采用增广向量形式:
那么,它在增加一维的三维空间中,aTY=0表示的是什么呢? 答:一个过原点的平面,方程为ay1+by2+cy3=0 (B)。
(A)式与(B)式形式上略有不同,但当y3=1时两者就一样了。 也就是说(B)式表示的平面与y3=1子空间(一平面)的交线就是(A) 式中表示的直线,这样的方法在后面感知准则函数中用到。
例如下图:三类的分类问题,它们的边界线就 是一个判别函数。
x2
2
1
边界
x1
3
§4.1 引言
判别函数包含两类:
一类 是线性判别函数: 线性判别函数 广义线性判别函数 (所谓广义线性判别函数就是把非线性判 别函数映射到另外一个空间变成线性判别 函数) 分段线性判别函数
另一类是非线性判别函数
g(x) g(x)
0 0
决策x 决策x
w1 w2
此时,g(x)不再是x的线性函数,而是一个二次函数
广义线性判别函数
由于线性判别函数具有形式简单,计算方便 的优点,并且已被充分研究,因此人们希望 能将其用适当方式扩展至原本适宜非线性判 别函数的领域。
一种方法是选择一种映射x→y,即将原样本 特征向量x映射成另一向量y,从而可以采用 线性判别函数的方法。
yYi
x?Xi
=
wT
(x
-
mi
)(x
-
mi
)T
w
= wT Si w
x?Xi
S1 S1 wT (S1 +S2 )w= wT Sww
得出最终表达式:
JF (w)
Sb S1 S2
wT Sbw wT Sww
最佳W值的确定
➢ 最佳w值的确定实际上就是对Fisher准则函数求取其达极
大值时的 w*。
§4.1 引言
线性判别函数:x的各个分量的线性函数 或以x为自变量的某些函数的线性函数。
g(x) wT x w0
对于c类问题: gi (x) wiT x wi0
利用样本集估计参数wi和wi0,并把未知样 本x归到具有最大判别函数值的类别中去。
优点:
最优?次优? 计算简单;容易实现;需要的计算量和存储量小
➢在使用线性分类器时,样本的分类由其判别函数值决定, 而每个样本的判别函数值是其各分量的线性加权和再加上 一阈值w0。
➢如果我们只考虑各分量的线性加权和,则它是各样本向 量与向量w的向量点积。
§4.2 Fisher线性判别
现在讨论通过映 w 射投影来降低维
x2 ω1
数的方法。
y1 ω2
y2
w(y) x1
L(w, )
w
Sb w
Sww
0
Sbw* Sww*
Sw1Sbw* w* 这是一个求矩阵
的特征值问题。
Sw1Sbw* w*
经过这种变换,维数大大增加了,这将使问题很快陷入 所谓的“维数灾难”。怎么解决?
广义线性判别函数
一种特殊映射方法:增广样本向量y与增..,
xd
T
a
1 w
w0
,
w1
,
...,
wd
T
线性判别函数的齐次简化: g(x) = wT x + w0 = aT y
Y空间任意一点y到Hˆ 的距离为:rˆ g(x) aT y aa
不需要有关的概率密度函数的确切的参数形式, 属于非参数估计方法。
§4.1 引言
问题描述:
假设对一模式X已抽取n个特征,表示为:
X (x1, x2, x3,...,xn )T X是n维空间的一个向量
根据模式X的n个特征来判别模式属于 ω1 ,ω2 , … , ωm 类中的那一类?
§4.1 引言
类间分布尽可能分开, 类内样本投影尽可能密集。
➢用以评价投影方向w的函数为:
JF (w)
Sb S1 S2
(m1 m2 )2 S1 S2
这个函数称为Fisher准则函数。应该寻找使分子尽可能大,
分母尽可能小的w作为投影向量。
§4.2 Fisher线性判别
JF (w)
Sb S1 S2
(m1 m2 )2 S1 S2
一些基本参量的定义
1. 样本在d维特征空间的一些描述量。
(1)各类样本均值向量mi
1
mi = Ni x?Xi x i = 1,2 (2)样本类内离散度矩阵Si与总类内离散度矩阵Sw
Si = (x - mi )(x - mi )T , i 1, 2
x?Xi
Sw = S1 + S2
(3)样本类间离散度矩阵Sb: Sb = (m1 - m2 )(m1 - m2 )T
此时在二维空间中决策面为一过原点的直线,如下页图 所示。直线以 为法线向量,它对1维子空间(y2空间)的 划分与原决策面完全相同。
广义线性判别函数
由于样本向量在增加一维后变成了一个二维向量,因此 原一维空间讨论的问题,转变成在二维空间讨论的问题, 而原方程也变成了一条直线,它过二维空间的原点。
广义线性判别函数
把X空间各点投影到Y空间得一直线上,维数由2 维降为一维。若适当选择w的方向,可以使二类 分开。下面我们从数学上寻找最好的投影方向, 即寻找最好的变换向量w的问题。
Fisher准则的基本原理
➢ 分析w1方向之所以比w2方向优越,可以归纳出这样一个 准则,即向量w的方向选择应能使两类样本投影的均值之 差尽可能大些,而使类内样本的离散程度尽可能小。这就 是Fisher准则函数的基本思路。 ➢ Fisher准则的基本原理,就是要找到一个最合适的投影 轴,使两类样本在该轴上投影的交迭部分最少,从而使分 类效果为最佳。
广义线性判别函数
选择一种映射x→ y,即将原样本特征向量x映射成另一向量 y,从而可以采用线性判别函数的方法。
g(x) c0 c1x c2 x2
y1 1
a1 c0
如果我们采用映射x→
y
,使
y
y2
x
,a
a2
c1
y3 x2
a3 c2
则判别函数g(x)又可表示成
收集一组具有类别标志的样本X={x1,x2,…,xN} 按需要确定一准则函数J,其值反映分类器的性能,其极
值解对应于“最好”的决策。 用最优化技术求准则函数J的极值解w*和w0* ,从而确定
判别函数,完成分类器设计。
w* max J w
对于未知样本x,计算g(x),判断其类别。
换一个方式说:
w0是一个常数,称为阈值权。相应的决策规则可表示成
g(x)>0, 如果 g(x)<0,
则决策x 1 则决策x 2
g(x)=0, 可将其任意分类或拒绝
g(x)=0就是相应的决策面方程,在线性判别函数条件下它对 应d维空间的一个超平面。
线性判别函数的基本概念
为了说明向量w的意义,我们假设在该决策平面上有两个特 征向量x1与x2,则应有
模式识别
第四章线性判别函数(1)
回顾:
贝叶斯分类器 :
已知: 先验概率P( j
类条件概率密度p(
) x
|
j
)
判别函数
分类
需要大量样本?
参数估计与非参数估计
利用样本集直接设计分类器?
§4.1 引言
利用样本集直接设计分类器的基本思想:
给定某个判别函数类,且假定判别函数的参数形式 已知
用训练的方法来估计判别函数的参数值 分类决策
§4.1 引言
寻找线性判别函数的问题被形式化为极小化准 则函数的问题。以分类为目的的准则函数可以 是样本风险,也可以是训练误差。
目标:能够正确地对新的样本进行分类
线性判别函数的基本概念
设样本d维特征空间中描述,则两类别问题中线性判别函数的
一般形式可表示成
g(x) wT x w0
x = x1, x2,...xd T 其中 w = w1, w2,...wd T
wT x1 w0 wT x2 w0 wT (x1 x2 ) 0
其中(x1-x2)也是一个向量 ➢ 上式表明向量w与该平面上任两点组成的向量(x1-x2)正交,因 此w就是该超平面的法向量。这就是向量w的几何意义。
➢ 而g(x)也就是d维空间中任一点x到该决策面距离的代数度量,该 决策平面将这两类样本按其到该面距离的正负号确定其类别。
w x2
x
r
xp
x1
H: g=0
广义线性判别函数
线性判别函数是形式最为简单的判别函数,但是它不能用 于稍复杂一些的情况。
欲设计这样一个一维样本的分类器,使其性能为
x
b
b或x x
a
a 决策x w1 决策x w2
针对这种情况,如果设计这 样一个判别函数:
g(x)=(x-a)(x-b) 相应的决策规则 :
➢ 至于w0则体现该决策面在特征空间中的位置,当w0=0时,该
决策面过特征空间坐标系原点,而
时,则 表示了坐
标原点到该决策面的距离。
线性判别函数的几何意义
令 g(x) wT x w0
决策面(decision boundary)H方程:g(x)=0 向量w是决策面H的法向量 g(x)是点x到决策面H的距离的一种代数度量
设计线性分类器,是指所用的判别函数、分界面方程 的类型已选定为线性类型,因此主要的设计任务是确 定线性方程的两个参数,一个是权向量w,另一个是 阈值w0。
为了使所设计的线性分类器在性能上要满足一定的要 求,这种要求通过一种准则来体现,并且要表示成一 种准则函数,以便能通过将准则函数值优化的方法确 定w与w0 。
➢ 对于这个问题可以采用拉格朗日乘子算法解决,保持分母 为一非零常数c的条件下,求其分子项的极大值。
JF
(w)
wT Sbw wT Sww
令 wT Sww = c 0
定义Lagrange函数: L(w, ) wT Sbw (wT Sww c)
对拉格朗日函数分别对w求偏导并置为0来求w的解。
令:
线性分类器的设计任务
在给定样本集 条件下 确定线性判别函数的各项系数
, ,以
期对待测样本进行分类时,能满足相应的准则
函数J为最优的要求。
权向量
阈值权 或 增广权向量
此技术的关键问题是确定所需的准则函数,然 后用最优化技术确定准则函数的极值点
及 ,或增广权向量 。
线性分类器的设计步骤:
给定样本集X,确定线性判别函数 g(x) = wT x + w0 的各项系数w和w0。步骤:
相关文档
最新文档