哈工大模式识别第四章第五章

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

是均值
及散度
的估计。对于无限样本,
tr:迹
15
考虑类内类间欧氏距离的其它判据
• 判据Jd(X)是计算特征向 量的总平均距离,以下 一些判据则基于使类间 离散度尽量大,类内离 散度尽量小的考虑而提 出。
16
基于距离的可分性判据优缺点
• 距离准则:是样本在特征空间的分布的距离作为特 征提取的依据。
• 优点:直观,计算简便。 • 缺点:没有考虑概率分布,因此当不同类样本中有
▪ X只是Y的一个子集,每个分量xi必然能在原 特征集中找到其对应的描述量xi=yj。
6
特征提取
▪ 找到一个映射关系: A:Y→X
使新样本特征描述维数比原维数降低。其中每个 分量xi是原特征向量各分量的函数,即
Xi=fi(y1,y2,…,yD)
▪ 这两种降维的基本方法是不同的。在实际应用中可 将两者结合起来使用,比如先进特征提取,然后再 进一步选择其中一部分,或反过来。
31
▪ 上式表明D维特征空间中,J2判据的值是矩阵 的全部本征值之和。
▪ 令上式中WT=Ud =[u1,u2,….,ud] ▪则
▪ 则:如果矩阵
的本征值按大小顺序列为
▪ 那么由对应于d个最大的本征值的本征向量所组成的矩阵 W(D×d),就能使所得到的d维特征满足J2判据最大的要求 。
▪ 此结论对J4判据也适用
48
为使Jc最大,应选择满足如下关系的d个本征 值对应的本征向量组成的矩阵。
49
步骤
▪ 不同s,结果不同。 ▪ 1、s=0.5,得:Vi,i=1,2,…,d。 ▪ 2、根据Vi,i=1,2,…,d,求最优S(使Jc最大) ▪ 3、求最佳Vi,i=1,2,…,d ▪ 4、重复2、3直至获得一组稳定Vi
50
二、用散度准则JD的特征提取
只有两类时:
51
最佳W是对应下列次序的本征值对应的本 征向量
52
▪ 例:有两类样本:
W1: x11=(0,0,0)T,X12=(1,0,0)T,X13=(1,0,1)T,X14=(1,1,0)T W2: x21=(0,0,1)T,X22=(0,1,0)T,X23=(0,1,1)T,X24=(11,1)T 试利用散度JD降低维数。
哈工大模式识别第四章 第五章
2020年4月24日星期五
§4.1 基本概念
▪ 如何确定合适的特征空间是设计模式识别系统另一 个十分重要,甚至更为关键的问题。
▪ 如果所选用的特征空间能使同类物体分布具有紧致 性,即各类样本能分布在该特征空间中彼此分割开 的区域内,这就为分类器设计成功提供良好的基础 。
32
例:
给定先验概率相等的两类,其均值向量分别为: 协方差矩阵是:
求用J2判据的最优特征提取。
33
▪ 解: 应先求 ▪ 混合均值
,再求此矩的特征矩阵。
▪ 类间离散度矩阵:
▪ 类内离散度矩阵
34
求 的本征值矩阵。
由于这是一个两类别问题,总均值向量μ值是两个
均值向量μ1和μ2的线性求和,则
中只
有一个是独立的,因此
25
若 则
26
4.3 特征提取
▪ 4.3.1 按距离度量的特征提取方法 ▪ 基于距离的可分性判据的实质是Fisher准则
的延伸,即综合考虑不同类样本的类内聚集 程度与类间的离散程度这两个因素。 ▪ 这种判据的优化体现出降维后的特征空间较 好地体现类内密集、类间分离的要求。
27
按欧氏距离度量的特征提取方法
景物则要用摄像机。可以称之为原始信息(原始测 量,得到测量空间)。 ▪ 2、描述事物方法的选择与设计(特征形成)
在得到了原始信息之后,要对它进一步加工, 以获取对分类最有效的信息。
设计所要信息的形式是十分关键的。
3
例 用RGB颜色空间和HSI颜色空间
▪ 右边是原始图像,左边是用HSI空间描述的同一图 像(但是为了显示出来,用H对应R,S对应G,I对应 B,然后再以RGB的方式显示出来
▪ 对特征空间进行优化有两种基本方法:一种为特征 选择,一种为特征的组合优化----特征的提取。
5
特征选择
▪ 已有D维特征向量空间,Y={y1,y2,…,yD} , 从原有的D维特征空间,删去一些特征描述 量,从而得到精简后的特征空间。
▪ 在这个特征空间中,样本由d维的特征向量描 述:X={x1,x2,…,xd} ,d<D。
JC(X)= JC(W TY)= JC(W) JD(X)=JD (WTY)= JD (W)
40
一、正态分布下基于Jc的特征提取
▪ 当两类都是正态分布时:
41
42
是 W是其本征向量
的本征值矩阵
可证,只有一个非零本征值,此时,W是一维的:
45
46
47
根据Jc对非奇异变换的不变性,W即是Σ2-1Σ1 的本征向量。此时:

= tr[SW-1SbWT(WT)-1] = tr[SW-1Sb]=J2(X)
▪ 设SW-1Sb的本征值为λ1 >λ2 >λ3 >……>λD ,对应的 本征向量矩阵为U=[u1,u2,….,uD]
▪ 则 UT SW-1Sb U =Λ, 其中: ▪ 令W=UT=U-1
▪ 则J2(W)= tr[UTSW-1SbU] ▪
4
3、特征空间的优化
▪ 这个层次的工作发生在已有了特征的描述方法之后 ,也就是已有了一个初始的特征空间,如何对它进 行改造与优化的问题。一般说来要对初始的特征空 间进行优化是为了降维。即初始的特征空间维数较 高。能否改成一个维数较低的空间,称为优化,优 化后的特征空间应该更有利于后续的分类计算,这 就是本章着重讨论的问题。
即从总体上说同类物体内各样本由于具有共性,因 此类内样本间距离应比跨类样本间距离小。 ▪ Fisher准则(也可看成是特征提取方法)正是以使类间 距离尽可能大同时又保持类内距离较小这一种原理 为基础的。 ▪ 同样在特征选择与特征提取中也使用类似的原理, 这一类被称为基于距离的可分性判据。
12
• 两类之间的距离:ω1任一点与ω2中任一点的距离 和的平均。
部分在特征空间中交迭分布时,简单地按距离划分 ,无法表明与错误概率之间的联系 。
17
二、基于概率分布的可分性判据
▪ 基于概率分布的可分性判据:依据不同类别类分布概率密 度函数来优化特征空间
▪ 不考虑各类的先验概率,或假设两类样本的先验概率相等 (如下图),可以看出:
1. 如果两类条件概率分布互不交迭,则这两类就完全可分 ;
▪ 另一种用两者间的比值,称为散度。
21
1、Bhattacharyya距离 和Chernoff界限
• Bhattacharyya距离
• 显然,当p(X|ω1)=p(X|ω2) 时,JB=0;而当两者完 全不交迭时JB为无穷大
• Chernoff界限
22
2、散度
另一种常用的基于概率距离度量的判据是利用似然比 或对数似然比。 对两类问题,对数似然比为:
▪ 反之,如果不同类别的样本在该特征空间中混杂在 一起,再好的设计方法也无法提高分类器的准确性 。
▪ 这一章要讨论的问题就是特征空间如何设计的问题
2
如何构造一个特征空间,即对要识别的事 物用什么方法进行描述、分析的问题?
▪ 1、物理量的获取与转换(原始测量) 这是指用什么样的传感器获取电信号,如摄取
2. 对所有X都有p(X|ω1)=p(X|ω2),则两类就完全不可分。
完全可分
重合,完全不可分
18
• 任何函数
• 若满足下列条件,则用于做判据: 1、Jp≥0 2、当两类完全不交叠时,Jp取最大值 若对所有x有:p(X| ω 2)≠0时,p(x| ω 1)=0,则 Jp=max 3、当两类分布相同时,Jp=0 若:p(X| ω 2)=p(x| ω 1),则Jp=0
• 多类:各类之间的平均距离

:ωi任一点xk(i)与ωj中任一点xj( j)的距离
• Pi, Pj是第i类和第j类的先验概率
• 度量类内、类间的距离,可用不同方法,如欧氏距 离等。
13
欧氏距离下的可分性判据
欧氏距离: 每类均值:
所有样本集总均值: 平均距离:
(判ຫໍສະໝຸດ Baidu)
令:
则得判据的矩阵形式:
14
▪ 上述公式是有限样本集,
的秩是一,换句话说
它只有一个非零本征值,W是D×1矩阵,是一个
向量,求该向量需解
35
▪ 利用W向量对原始的两类两维样本进行线性 变换得到新的一维分布,特征空间从二维降 到一维,并满足J2判据。
▪ 该特征空间实质上就是对应于Fisher准则求 得的线性分类器的法向量。
▪ 如果讨论的是多类别C问题,则优化后的维 数至多为类别数减一(C-1)。
28
1、J2判据下的特征提取
▪ 将原特征空间X(D维)通过线性映射Y=WTX降维到特 征空间Y中,若X空间的类内离散度矩阵和类间离散 度矩阵分别为SW ,Sb;
▪ 则按J2判据的的最后特征提取矩阵W是按如下方式 构造的:
▪ 若矩阵 SW-1Sb 的本征值λi按大小顺序列为
▪ 则选择前d个本征值所对应的本征向量组成变换矩 阵WD*d,都可使这些判据J2(W)达到最大值。
7
§4.2 类别可分离性判据
▪ 对原特征空间优化,就要对优化结果进行评价 ▪ 实际的评价方法,是对系统性能进行测试,测试指
标主要有正确率、计算速度、 存储容量等。 ▪ 本章讨论的评价方法:目的在于找出对特征空间进
行优化的具体算法。 ▪ 对特征空间进行优化是一种计算过程,它的基本方
法仍然是模式识别的典型方法:找到一种准则(或称 判据,通常用一种式子表示),以及一种优化计算 方法,使这种准则达到一个极值。
8
判据
▪ 理想的情况是与计算错误率有关的判据 ▪ 直接反映错误率的是贝叶斯公式,在实际中
运用有困难 ▪ 采用其他判据
9
可分性判据应满足的要求
• (1)与错误率有单调关系,这使判据取最大值时 错误率也较小
• (2)当特征独立时

有可加性:
(Jij是第i类与第j类的可分性准则) • (3)度量特性:
可提供ωi对ωj的可分性信息。 如果对某个X,当p(X|ω1)=p(X|ω2) 时,则lij=0 , 反之若两者差异越大,则lij的绝对值也大。
23
对整个特征空间概率分布的差异程度作出评价,可将对 ωi类及对ωj 的平均可分性信息定义为
总的平均可分信息则可表示成散度
24
3、正态分布时可分性判据
若 则 一维:
20
▪ 一种是用p(x|ω1),p(x|ω2)之间的乘法来计算其 重迭程度,像Bhattacharya距离、 Chernoff界限等
▪ Bhattacharyya距离、 Chernoff界限与错误率的上界 有直接关系(见第二章)。因此Bhattacharyya距离 、 Chernoff界限不仅用来对特征空间进行降维优化 ,而且也用来对分类器的错误率作出估计。
36
2、J5判据下的特征提取
▪ 由于 阵U使得:
和 是对称矩阵,因此,存在矩
▪ 则:
37

即: 是
的本征值矩阵
38
J5的另一种形式

设 则:
的本征值矩阵是
39
4.3.2 按概率距离判据提取特征
▪ 设原始特征为Y,而经变换后的特征为X,两 者之间有映射关系 X=WTY
▪ 则原空间中一矩阵A经映射后为:A*=WTAW ▪ 映射后概率距离判据:
• (4)单调性:加入新的特征时,判据不减小
10
几种常用的可分性判据
▪ 以计算样本在特征空间离散程度为基础的准 则,称为基于距离的可分性判据(重点)
▪ 基于概率密度分布的可分性判据。 ▪ 基于熵函数的可分性判据(不讲)
11
一、基于距离的可分性判据
▪ 基于距离的度量是用来进行分类的重要依据。 ▪ 因为一般情况下同类物体在特征空间呈聚类状态,
29
▪ 证明:
▪ 因为: Y=WTX,
▪ 设:X的类内和类间离散度矩阵分别为SW ,Sb
▪ 则:Y的类内和类间离散度矩阵分别为SW ‘, Sb‘为

SW’=W SW’WT , Sb’=W Sb’WT

(见第3章中,Fisher准则一节)
▪ 在使用J2判据下,将其Y的可分性判据表示成变换 W的函数: J2(Y)=tr[(SW’)-1 Sb’]
▪ 则: J2(Y)=tr[(WSWWT)-1 (WSbWT)]= J2(W) ▪ 可以证明:在不降维条件下 ,即,设W是D*D维的
,则J2判据不变 J2(Y)= J2(X) 。
哈尔滨工业大学电信院 宿富林
30
▪ J2(W)=tr[(WSWWT)-1 (WSbWT)]
▪ =tr[(WT)-1SW-1W-1 WSbWT)] =tr[(WT)-1SW-1SbWT]
▪ 基于距离可分性判据的特征优化过程是通过 一个线性变换实现的。
▪ 设在原特征空间一个样本向量表示成X(D维) 而在优化特征空间中,样本向量表示成Y(d维 )而X与Y之间的关系是: Y=WTX
▪ 其中W是一个D×d维矩阵(d<D) ▪ 目的:利用判据找出一种线性变换W,它可
实现这种判据J(Y)=J(W)的极值化。
相关文档
最新文档