第2章 模式识别的基本理论(3)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 0 0 2 其中: 0 0 0 0 0 0 0 0 0 0 D
令W=UT=U-1
则J2(W)= tr[UTSW-1SbU]
tr[] i
i 1
16
D
上式表明D维特征空间中,J2判据的值是矩阵 S 1S 的全部本 W b 征值之和。 令上式中WT=Ud =[u1,u2,….,ud] 则 0 0 0
0 J 2(W ) tr[U d T SW -1SbU d ] tr 0 0
1
2
0 0
0 0
则:如果矩阵
1 SW Sb 的本征值按大小顺序列为
d 0 0 i 1 i d
1 2 3
D
那么由对应于d个最大的本征值的本征向量所组成的矩阵 W(D×d),就能使所得到的d维特征满足J2判据最大的要求。 此结论对J4判据也适用
按距离度量的特征提取就是:利用基于距离的判据(J1~J5)找出 一种线性变换W,使得判据J达到极值。
13
(1)J2判据下的特征提取算法
设X空间的类内离散度矩阵和类间离散度矩阵分别为 SW ,Sb; 则按J2判据得到的特征提取矩阵W是按如下方式构造的:
若矩阵 SW-1Sb 的本征值λi按大小顺序列为
22
U T SW U I
SW (U ) U
T 1
1
或
SW UU
1
T
U T U
UU T U U
因此: 即: 是
(两边同乘U)
1 Sw U U
S
1 w
的本征值矩阵
|| D J(X) i 由: 5 | I | i 1
可见,取使J5达最大的d个本征
对原特征空间优化,就要对优化结果进行评价 实际的评价方法:对系统性能进行测试,测试指标主要有正 确率、计算速度、 存储容量等。 本节讨论的评价方法:找出对特征空间进行优化的具体算法。 对特征空间进行优化是一种计算过程,它的基本方法仍然是 模式识别的典型方法:找到一种准则(或称判据,通常用一 种式子表示),以及一种优化计算方法,使这种准则达到一 个极值。 理想的情况:判据与计算错误率有关,但直接反映错误率的 是贝叶斯公式,在实际中运用有困难。 采用其他判据:类别可分离性判据
(见第3章中,Fisher准则一节)
在使用J2判据下,将其Y的可分性判据表示成变换W的函数: J2(Y)=tr[(SW’)-1 Sb’]
则: J2(Y)=tr[(WSWWT)-1 (WSbWT)]= J2(W)
可以证明:在不降维条件下 ,即,设W是D*D维的,则J2判据 不变 J2(Y)= J2(X) 。
1
如何构造一个特征空间,即对要识别的事 物用什么方法进行描述、分析的问题?
1、物理量的获取与转换(原始测量)
这是指用什么样的传感器获取电信号,如摄取景物则要用摄像机。 可以称之为原始信息(原始测量,得到测量空间)。
2、描述事物方法的选择与设计(特征形成)
在得到了原始信息之后,要对它进一步加工,以获取对分类最有 效的信息。 设计所要信息的形式是十分关键的。
20
利用W向量对原始的两类两维样本进行线性变换得 到新的一维分布,特征空间从二维降到一维,并满 足J2判据。 该特征空间实质上就是对应于Fisher准则求得的线 性分类器的法向量。 如果讨论的是多类别C问题,则优化后的维数至多 为类别数减一(C-1)。
21
| S w Sb | ) (2)J5判据下的特征提取 J( 5 x | Sw |
J 2 ( x ) tr ( S S ) trSb J( ) 4 x trS w
1 w b
| Sb | J( ) ln[ ] 3 x | Sw | | S w Sb | J( ) 5 x | Sw |
11
基于距离的可分性判据优缺点
距离准则:是样本在特征空间的分布的距离作为特 征提取的依据。 优点:直观,计算简便。 缺点:没有考虑概率分布,因此当不同类样本中有 部分在特征空间中交迭分布时,简单地按距离划分, 无法表明与错误概率之间的联系 。
哈尔滨工业大学电信院 宿富林
15
证明:J2(W)=tr[(WSWWT)-1 (WSbWT)] =tr[(WT)-1SW-1W-1 WSbWT)] =tr[(WT)-1SW-1SbWT] = tr[SW-1SbWT(WT)-1] = tr[SW-1Sb]=J2(X) 设:SW-1Sb的本征值为λ1 >λ2 >λ3 >……>λD ,对应的本征向量 矩阵为U=[u1,u2,….,uD] 则 UT SW-1Sb U =Λ,
所有样本集的总均值: m
则平均距离为:
~ c
Pm
i 1 i
Байду номын сангаас
c
i
1 ni ( i ) T (i ) T J d ( x) P [ ( x m ) ( x m ) ( m m ) (mi m)] i k i k i i n i 1 i k 1
c
令: S b Pi ( mi m)(mi m)T
J ij (x1 ,x2 ,...,xd ) J ij (x1 ,x2 ,...,xd , x d 1 )
5
几种常用的可分性判据
以计算样本在特征空间离散程度为基础的准 则,称为基于距离的可分性判据(重点) 基于概率密度分布的可分性判据(不讲) 。 基于熵函数的可分性判据(不讲)
6
4
可分性判据应满足的要求
(1)与错误率有单调关系,这使判据取最大值时 错误率也较小 d (2)当特征独立时 J (x ,x ,...,xd ) J ij (xk ) 有可加性: ij 1 2 k 1 (Jij是第i类与第j类的可分性准则) (3)度量特性: Jij 0,i j; J ij 0,i j; J ij J ji (4)单调性:加入新的特征时,判据不减小
i Ei [ x]
c i 1
E[ x],
T
Sw PE i i [( x i )( x i ) ]
Sb Pi ( i )( i )T
i 1
c
J1( x) tr( Sb Sw )
10
3、类内类间欧氏距离的其它判据
判据Jd(X)是计算特征向量的总平均距离,以下一 些判据则基于使类间离散度尽量大,类内离散度 尽量小的考虑而提出。
值对应的本征向量组成的W,可将X降到d维。
23
J5的另一种形式
SW Sb
1
1 1 SW I SW Sb 1
( I S W Sb )U S W U U
§2.4 特征的选择与提取
如何确定合适的特征空间是设计模式识别系统另一 个十分重要,甚至更为关键的问题。
如果所选用的特征空间能使同类物体分布具有紧致 性,即各类样本能分布在该特征空间中彼此分割开 的区域内,这就为分类器设计成功提供良好的基础。 反之,如果不同类别的样本在该特征空间中混杂在 一起,再好的设计方法也无法提高分类器的准确性。 这一节要讨论的问题就是特征空间如何设计的问题
3、特征空间的优化
这个层次的工作发生在已有了特征的描述方法之后,也就是已有 了一个初始的特征空间,如何对它进行改造与优化的问题。 对初始的特征空间进行优化是为了降维。即初始的特征空间维数 较高。能否改成一个维数较低的空间,称为优化,优化后的特征空间 应该更有利于后续的分类计算。
2
特征空间的优化的两种方法
1 J 2 ( X ) tr ( S w Sb )
则选择前最大的d个本征值所对应的本征向量组成的变换 矩阵WD*d,可使判据J2(W)在W是D*d维下达到最大值。
1 2 3
D
14
证明: 因为: Y=WTX, 设:X的类内和类间离散度矩阵分别为SW ,Sb 则:Y的类内和类间离散度矩阵分别为SW’, Sb’为 SW’=W SW’WT , Sb’=W Sb’WT
12
2.4.2 特征提取
1、按距离度量的特征提取方法 Fisher准则的延伸,这种判据的优化体现出降维后的特征空 间较好地体现类内密集、类间分离的要求。 特征优化过程是通过一个线性变换实现的: 设在原特征空间一个样本向量表示成X(D维),在优化特 征空间中,样本向量表示成Y(d维),X与Y之间的关系是: Y=WTX, W:D×d维矩阵(d<D)
i 1 c ~
总的类间离散度矩阵) (总的类间离散度矩阵)
~ ~
1 ni ( i ) (i ) S w Pi ( xk mi )( xk mi )T ni k 1 i 1
则可得判据的矩阵形式: J d ( x) tr ( S b S w )
tr:迹
9
~ ~ 上述公式是有限样本集, mi , m, S w , S b 是均值 i , , 及散度 Sw , Sb 的估计。 对于无限样本:
7
1、用于可分性判据的距离
C类:各类之间的平均距离
c 1 c 1 J d ( x ) Pi Pj 2 i 1 j 1 ni n j (i ) ( j) ( x , x k l ) k 1 l 1 ni nj
式中: (i ) ( j) ( xk , xl ) :ωi任一点xk(i)与ωj中任一点xj( j)的距离,可用不 同距离度量方法,如欧氏距离等。 Pi, Pj:分别表示第ωi类和第ωj类的先验概率
1. 特征选择
已有D维特征向量空间,Y={y1,y2,…,yD} ,从原有的D维特征空间,删 去一些特征描述量,从而得到精简后的特征空间。 在这个特征空间中,样本由d维的特征向量描述:X={x1,x2,…,xd} ,d <D。X只是Y的一个子集,每个分量xi必然能在原特征集中找到其对应 的描述量xi=yj。
基于距离的可分性判据
基于距离的度量:是用来进行分类的重要依据。 原理:同类物体在特征空间呈聚类状态,即从总体上说同类 物体内各样本由于具有共性,因此类内样本间距离应比跨类 样本间距离小。 例如:Fisher准则(也可看成是特征提取方法)正是以使类 间距离尽可能大同时又保持类内距离较小这一种原理为基础 的。 同样在特征选择与特征提取中也使用类似的原理,这一类被 称为基于距离的可分性判据。
ni, nj:分别表示第ωi类和第ωj类的样本数目
8
2、欧氏距离下的可分性判据
(i ) ( j) (i ) ( j) T (i ) ( j) ( x , x ) ( x x ) ( x x ) k l k l k l 欧氏距离:
1 ni ( i ) 各类均值: mi xk ni k 1
由于 SW 阵U使得:
Sb和 SW 是对称矩阵,因此,存在矩
0 0 0 0 D
则:
1 U T U 0 0
U T SW U I
| Sw Sb | | | | U T U | | | D J( T i 5 X) | Sw | | Sw | | U S wU | | I | i 1
17
例:
给定先验概率相等的两类,其均值向量分别为:
协方差矩阵是:
求用J2判据的最优特征提取。
18
解: 应先求 混合均值 类间离散度矩阵:
,再求此矩阵的本征矩阵。
类内离散度矩阵
19
求 的本征值矩阵。 由于这是一个两类别问题,总均值向量μ值是两个 均值向量μ1和μ2的线性求和,则 中只 有一个是独立的,因此 的秩是一,换句话说 它只有一个非零本征值,W是D×1矩阵,是一个 向量,求该向量需解
1. 特征提取
找到一个映射关系:A:Y→X ,使新样本特征描述维数比原维数降低。 其中X的每个分量xi是原特征向量Y各分量的函数,即: xi=fi(y1,y2,…,yD) 这两种降维的基本方法是不同的。在实际应用中可将两者结合起来使用, 比如先进特征提取,然后再进一步选择其中一部分,或反过来。
3
2.4.1特征空间优化结果的评价准则: 类别可分离性判据
令W=UT=U-1
则J2(W)= tr[UTSW-1SbU]
tr[] i
i 1
16
D
上式表明D维特征空间中,J2判据的值是矩阵 S 1S 的全部本 W b 征值之和。 令上式中WT=Ud =[u1,u2,….,ud] 则 0 0 0
0 J 2(W ) tr[U d T SW -1SbU d ] tr 0 0
1
2
0 0
0 0
则:如果矩阵
1 SW Sb 的本征值按大小顺序列为
d 0 0 i 1 i d
1 2 3
D
那么由对应于d个最大的本征值的本征向量所组成的矩阵 W(D×d),就能使所得到的d维特征满足J2判据最大的要求。 此结论对J4判据也适用
按距离度量的特征提取就是:利用基于距离的判据(J1~J5)找出 一种线性变换W,使得判据J达到极值。
13
(1)J2判据下的特征提取算法
设X空间的类内离散度矩阵和类间离散度矩阵分别为 SW ,Sb; 则按J2判据得到的特征提取矩阵W是按如下方式构造的:
若矩阵 SW-1Sb 的本征值λi按大小顺序列为
22
U T SW U I
SW (U ) U
T 1
1
或
SW UU
1
T
U T U
UU T U U
因此: 即: 是
(两边同乘U)
1 Sw U U
S
1 w
的本征值矩阵
|| D J(X) i 由: 5 | I | i 1
可见,取使J5达最大的d个本征
对原特征空间优化,就要对优化结果进行评价 实际的评价方法:对系统性能进行测试,测试指标主要有正 确率、计算速度、 存储容量等。 本节讨论的评价方法:找出对特征空间进行优化的具体算法。 对特征空间进行优化是一种计算过程,它的基本方法仍然是 模式识别的典型方法:找到一种准则(或称判据,通常用一 种式子表示),以及一种优化计算方法,使这种准则达到一 个极值。 理想的情况:判据与计算错误率有关,但直接反映错误率的 是贝叶斯公式,在实际中运用有困难。 采用其他判据:类别可分离性判据
(见第3章中,Fisher准则一节)
在使用J2判据下,将其Y的可分性判据表示成变换W的函数: J2(Y)=tr[(SW’)-1 Sb’]
则: J2(Y)=tr[(WSWWT)-1 (WSbWT)]= J2(W)
可以证明:在不降维条件下 ,即,设W是D*D维的,则J2判据 不变 J2(Y)= J2(X) 。
1
如何构造一个特征空间,即对要识别的事 物用什么方法进行描述、分析的问题?
1、物理量的获取与转换(原始测量)
这是指用什么样的传感器获取电信号,如摄取景物则要用摄像机。 可以称之为原始信息(原始测量,得到测量空间)。
2、描述事物方法的选择与设计(特征形成)
在得到了原始信息之后,要对它进一步加工,以获取对分类最有 效的信息。 设计所要信息的形式是十分关键的。
20
利用W向量对原始的两类两维样本进行线性变换得 到新的一维分布,特征空间从二维降到一维,并满 足J2判据。 该特征空间实质上就是对应于Fisher准则求得的线 性分类器的法向量。 如果讨论的是多类别C问题,则优化后的维数至多 为类别数减一(C-1)。
21
| S w Sb | ) (2)J5判据下的特征提取 J( 5 x | Sw |
J 2 ( x ) tr ( S S ) trSb J( ) 4 x trS w
1 w b
| Sb | J( ) ln[ ] 3 x | Sw | | S w Sb | J( ) 5 x | Sw |
11
基于距离的可分性判据优缺点
距离准则:是样本在特征空间的分布的距离作为特 征提取的依据。 优点:直观,计算简便。 缺点:没有考虑概率分布,因此当不同类样本中有 部分在特征空间中交迭分布时,简单地按距离划分, 无法表明与错误概率之间的联系 。
哈尔滨工业大学电信院 宿富林
15
证明:J2(W)=tr[(WSWWT)-1 (WSbWT)] =tr[(WT)-1SW-1W-1 WSbWT)] =tr[(WT)-1SW-1SbWT] = tr[SW-1SbWT(WT)-1] = tr[SW-1Sb]=J2(X) 设:SW-1Sb的本征值为λ1 >λ2 >λ3 >……>λD ,对应的本征向量 矩阵为U=[u1,u2,….,uD] 则 UT SW-1Sb U =Λ,
所有样本集的总均值: m
则平均距离为:
~ c
Pm
i 1 i
Байду номын сангаас
c
i
1 ni ( i ) T (i ) T J d ( x) P [ ( x m ) ( x m ) ( m m ) (mi m)] i k i k i i n i 1 i k 1
c
令: S b Pi ( mi m)(mi m)T
J ij (x1 ,x2 ,...,xd ) J ij (x1 ,x2 ,...,xd , x d 1 )
5
几种常用的可分性判据
以计算样本在特征空间离散程度为基础的准 则,称为基于距离的可分性判据(重点) 基于概率密度分布的可分性判据(不讲) 。 基于熵函数的可分性判据(不讲)
6
4
可分性判据应满足的要求
(1)与错误率有单调关系,这使判据取最大值时 错误率也较小 d (2)当特征独立时 J (x ,x ,...,xd ) J ij (xk ) 有可加性: ij 1 2 k 1 (Jij是第i类与第j类的可分性准则) (3)度量特性: Jij 0,i j; J ij 0,i j; J ij J ji (4)单调性:加入新的特征时,判据不减小
i Ei [ x]
c i 1
E[ x],
T
Sw PE i i [( x i )( x i ) ]
Sb Pi ( i )( i )T
i 1
c
J1( x) tr( Sb Sw )
10
3、类内类间欧氏距离的其它判据
判据Jd(X)是计算特征向量的总平均距离,以下一 些判据则基于使类间离散度尽量大,类内离散度 尽量小的考虑而提出。
值对应的本征向量组成的W,可将X降到d维。
23
J5的另一种形式
SW Sb
1
1 1 SW I SW Sb 1
( I S W Sb )U S W U U
§2.4 特征的选择与提取
如何确定合适的特征空间是设计模式识别系统另一 个十分重要,甚至更为关键的问题。
如果所选用的特征空间能使同类物体分布具有紧致 性,即各类样本能分布在该特征空间中彼此分割开 的区域内,这就为分类器设计成功提供良好的基础。 反之,如果不同类别的样本在该特征空间中混杂在 一起,再好的设计方法也无法提高分类器的准确性。 这一节要讨论的问题就是特征空间如何设计的问题
3、特征空间的优化
这个层次的工作发生在已有了特征的描述方法之后,也就是已有 了一个初始的特征空间,如何对它进行改造与优化的问题。 对初始的特征空间进行优化是为了降维。即初始的特征空间维数 较高。能否改成一个维数较低的空间,称为优化,优化后的特征空间 应该更有利于后续的分类计算。
2
特征空间的优化的两种方法
1 J 2 ( X ) tr ( S w Sb )
则选择前最大的d个本征值所对应的本征向量组成的变换 矩阵WD*d,可使判据J2(W)在W是D*d维下达到最大值。
1 2 3
D
14
证明: 因为: Y=WTX, 设:X的类内和类间离散度矩阵分别为SW ,Sb 则:Y的类内和类间离散度矩阵分别为SW’, Sb’为 SW’=W SW’WT , Sb’=W Sb’WT
12
2.4.2 特征提取
1、按距离度量的特征提取方法 Fisher准则的延伸,这种判据的优化体现出降维后的特征空 间较好地体现类内密集、类间分离的要求。 特征优化过程是通过一个线性变换实现的: 设在原特征空间一个样本向量表示成X(D维),在优化特 征空间中,样本向量表示成Y(d维),X与Y之间的关系是: Y=WTX, W:D×d维矩阵(d<D)
i 1 c ~
总的类间离散度矩阵) (总的类间离散度矩阵)
~ ~
1 ni ( i ) (i ) S w Pi ( xk mi )( xk mi )T ni k 1 i 1
则可得判据的矩阵形式: J d ( x) tr ( S b S w )
tr:迹
9
~ ~ 上述公式是有限样本集, mi , m, S w , S b 是均值 i , , 及散度 Sw , Sb 的估计。 对于无限样本:
7
1、用于可分性判据的距离
C类:各类之间的平均距离
c 1 c 1 J d ( x ) Pi Pj 2 i 1 j 1 ni n j (i ) ( j) ( x , x k l ) k 1 l 1 ni nj
式中: (i ) ( j) ( xk , xl ) :ωi任一点xk(i)与ωj中任一点xj( j)的距离,可用不 同距离度量方法,如欧氏距离等。 Pi, Pj:分别表示第ωi类和第ωj类的先验概率
1. 特征选择
已有D维特征向量空间,Y={y1,y2,…,yD} ,从原有的D维特征空间,删 去一些特征描述量,从而得到精简后的特征空间。 在这个特征空间中,样本由d维的特征向量描述:X={x1,x2,…,xd} ,d <D。X只是Y的一个子集,每个分量xi必然能在原特征集中找到其对应 的描述量xi=yj。
基于距离的可分性判据
基于距离的度量:是用来进行分类的重要依据。 原理:同类物体在特征空间呈聚类状态,即从总体上说同类 物体内各样本由于具有共性,因此类内样本间距离应比跨类 样本间距离小。 例如:Fisher准则(也可看成是特征提取方法)正是以使类 间距离尽可能大同时又保持类内距离较小这一种原理为基础 的。 同样在特征选择与特征提取中也使用类似的原理,这一类被 称为基于距离的可分性判据。
ni, nj:分别表示第ωi类和第ωj类的样本数目
8
2、欧氏距离下的可分性判据
(i ) ( j) (i ) ( j) T (i ) ( j) ( x , x ) ( x x ) ( x x ) k l k l k l 欧氏距离:
1 ni ( i ) 各类均值: mi xk ni k 1
由于 SW 阵U使得:
Sb和 SW 是对称矩阵,因此,存在矩
0 0 0 0 D
则:
1 U T U 0 0
U T SW U I
| Sw Sb | | | | U T U | | | D J( T i 5 X) | Sw | | Sw | | U S wU | | I | i 1
17
例:
给定先验概率相等的两类,其均值向量分别为:
协方差矩阵是:
求用J2判据的最优特征提取。
18
解: 应先求 混合均值 类间离散度矩阵:
,再求此矩阵的本征矩阵。
类内离散度矩阵
19
求 的本征值矩阵。 由于这是一个两类别问题,总均值向量μ值是两个 均值向量μ1和μ2的线性求和,则 中只 有一个是独立的,因此 的秩是一,换句话说 它只有一个非零本征值,W是D×1矩阵,是一个 向量,求该向量需解
1. 特征提取
找到一个映射关系:A:Y→X ,使新样本特征描述维数比原维数降低。 其中X的每个分量xi是原特征向量Y各分量的函数,即: xi=fi(y1,y2,…,yD) 这两种降维的基本方法是不同的。在实际应用中可将两者结合起来使用, 比如先进特征提取,然后再进一步选择其中一部分,或反过来。
3
2.4.1特征空间优化结果的评价准则: 类别可分离性判据