模式识别
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(ab)
且 f(0)=f(1) = 0,从而有 f(s)0。由该不等式有:
Jc (1,2, s) ln p(x|1)s p(x| 2 )1s dx
W
ln [sp(x|1) (1 s) p(x|2 )]dx ln(s 1 s) 0
W
证毕。
28
Jc 性质(2)证明:
只考虑连续的情况:
20
7.2 类别可分性判据
7.2.2基于类的概率密度函数的可分性判据
考虑两类问题。上图是一维的两类概率分布密度。 (a) 表示两类是完全可分的。 (b)是完全不可分的。
21
7.2.2基于类的概率密度函数的可分性判据 可用两类概密函数的重叠程度来度量可分性,
构造基于类概密的可分性判据。此处的所谓重叠 程度是指两个概密函数相似的程度。
P0 ( e ) P ( 1 ) P ( 2 ) 2 exp J B
23
24
7.2.2基于类的概率密度函数的可分性判据
(二) Chernoff 判据 ( JC )
JC ln p(x1)s p(x2 )1s dx W Jwk.baidu.com (1,2;s)
JC (s;x1, x2 , , xn )JC (s)
p(x1)dxP( 2 )
p(x 2 ) d x
W2
W1
min P(1) p(x1), P( 2 ) p(x 2 ) d x
W
利用不等式 mina,b ab1 , a 0,b 0,0 1 ,
由上式进一步可得:
P0 (e) P(1)s P( 2 )1s p(x1)s p(x 2 )1s d x
1 Ni
Ni
(i) xk
k 1
i 1,2, , c
各类模式的总体均值矢量 m c Pi m(i)
i 1
Pi 为相应类的先验概率,当用统计量代替先验概 率时,总体均值矢量可表示为:
m
c i 1
Pi m(i)
c i 1
N i m(i) N
1 N
c i 1
Ni k 1
xk( i )
1 N
特征提取与选择的两个基本途径
(1)直接选择法:当实际用于分类识别的特征数目d 确定后,直接从已获得的n 个原始特征中选出d 个特征 x1, x2 , , xd,使可分性判据J 的值满足下
式: Jx1, x2 , , xd max J xi1, xi2 , , xid
式中xi1, xi2 , , xid 是n 个原始特征中的任意d 个特征,
11
7.2 类别可分性判据
7.2.1基于几何距离的可分性判据
一般来讲,不同类的模式可以被区分是由于它们 所属类别在特征空间中的类域是不同的区域。
显然,区域重叠的部分越小或完全没有重叠,类 别的可分性就越好。
因此可以用距离或离差测度(散度)来构造类别 的可分性判据。
12
7.2.1基于几何距离的可分性判据
上式表示直接寻找n 维特征空间中的d 维子空间。
主要方法有:分支定界法、用回归建模技术确定相 关特征等方法。
6
7.1概述
特征提取与选择的两个基本途径
(2)变换法,在使判据J 取最大的目标下,对n 个原始特征进行变换降维,即对原n 维特征空间
进行坐标变换,然后再取子空间。
主要方法有:基于可分性判据的特征选择、基于 误判概率的特征选择、离散K-L变换法(DKLT)、 基于决策界的特征选择等方法。
(一)
点与点的距离
d(a,b)
(a
b)
T
(a
b)
1/ 2
n
(ak
bk
)
2
1/
2
k1
(二) 点到点集的距离
用均方欧氏距离表示
d
2
(
x,
{ak
(i
)
})
1 Ni
Ni
d
2
(
x,
ak
(i
)
)
k 1
13
7.2.1基于几何距离的可分性判据
(三) 类内及总体的均值矢量
类的均值矢量:
m( i )
(4) 当 xr 的各分量 x1, x2 ,L , xn 相互独立时,
n
JC (s;x1, x2 ,L , xn ) JC (s;xl )
l 1
26
7.2.2基于类的概率密度函数的可分性判据
(5) 当 xr 的各分量 x1, x2,L , xn 相互独立时,有
JC (s; x1, x2 ,L , xk1) JC (s; x1, x2 ,L , xk1, xk )
7
第七章 特征提取与选择
7.2 类别可分性判据
8
7.2 类别可分性判据
构造可分性判据
为确立特征提取和选择的准则:引入类别可分性 判据,来刻划特征对分类的贡献。为此希望所构造 的可分性判据满足下列要求:
(1) 与误判概率(或误分概率的上界、下界)有单调关系。
(2) 当特征相互独立时,判据有可加性,即 :
d 2(x)
1 2
c
Pi
i1
c
Pj
j1
1 NiN j
Ni k 1
N j ( xk(i)
l 1
xl( j) )T ( xk(i)
xl( j) )
17
7.2.1基于几何距离的可分性判据
(八) 多类情况下总的类内、类间及总体离差矩阵
类内离差
SW
c i1
Pi Si
c
Pi
i1
1 Ni
Ni
(
JC
ln
W
p( x p( x
1 2
) )
s
p(
x
2
)dx
这就启发我们运用两个概密的比或差来描述 两个概密重迭或相似的程度。
33
7.2.2基于类的概率密度函数的可分性判据
(三)散度JD (Divergence)
i类对j类的平均可分性信息为:
Ii
j (x)
Ei
ln
p( x p( x
J1 Tr SW1 SB
J
3
Tr S B Tr SW
J2
ln
SB SW
J4
SW SB SW
ST SW
19
7.2.1基于几何距离的可分性判据
在特征空间中,当类内模式较密聚,而不同类的 模式相距较远时,从直觉上我们知道分类就较容 易,由各判据的构造可知,这种情况下所算得的 判据值也较大。由判据的构造我们还可以初步了 解运用这类判据的原则和方法。
当 C1 C2 C时,
J
C
J
B
1 s(1 s)(m(1) m(2) )T C1(m(1) 2 1 (m(1) m(2) )T C 1(m(1) m(2) ) 8
m(2) )
32
7.2.2基于类的概率密度函数的可分性判据
实际上 JC ln p(x1)s p(x2 )1s dx 可以写成: W
(k n)
(6) 最小误判概率
P0 (e) P(1)s P(2 )1s exp JC (1,2;s) (0 < s < 1)
27
Jc 性质(1)证明:
考虑函数 f(s) = sa+(1-s)b-asb1-s (a,b>0)
因为,当 0 s 1 时 f ’’(s) = -asb1-s(ln a - ln b)2 < 0
N l 1
xl
14
7.2.1基于几何距离的可分性判据
(四)
类内距离
d
2 (i )
1 Ni
Ni
(xk
(i
)
k 1
m(i
)
)T
(
xk
(i)
m(i) )
类内均方欧氏距离
类内均方距离也可定义为:
dc2 (i )
1 Ni (Ni
1)
Ni k 1
Ni l 1
d 2 (xk(i) , xl(i) )
模式识别
第七章 特征提取与选择
类别可分性判据 离散K-L变换及其在特征提取
与选择中的应用 特征选择中的直接挑选法
2
第七章 特征提取与选择
7.1 概 述
3
第七章 特征提取与选择
7.1概述
模式识别的三大核心问题:
•特征数据采集 •分类识别 •特征提取与选择
分类识别的正确率取决于对象的表示、训练学 习和分类识别算法,我们在前面各章的介绍中详细 讨论了后两方面的内容。本章介绍的特征提取与选 择问题则是对象表示的一个关键问题。
xk
(i
)
k 1
m( i )
)(
xk
(i
)
m(i) )T
类间离差 SB c Pi (m(i) m)(m(i) m)T
i 1
总体离差
ST
1 N
N l 1
( xl
m)(
xl
m)T
SW
SB
易导出 d 2 (x) TrSW SB TrST
18
7.2.1基于几何距离的可分性判据
4
第七章 特征提取与选择
7.1概述
通常在得到实际对象的若干具体特征之后, 再由这些原始特征产生出对分类识别最有效、 数目最少的特征,这就是特征提取与选择的 任务。从本质上讲,我们的目的是使在最小 维数特征空间中异类模式点相距较远(类间 距离较大),而同类模式点相距较近(类内 距离较小)。
5
7.1概述
W
P(1)s P( 2 )1s exp JC
30
7.2.2基于类的概率密度函数的可分性判据
由JB和JC的定义知:JB=JC(1/2)
对两类都是正态分布情况:
p( x 1) ~ N (m(1) , C1)
p(x 2 ) ~ N (m(2) , C2 )
JC
1 s(1 s)(m(1) m(2) )T 2
d
J i j (x1, x2 , , xd ) J i j (xk )
k 1
式中,x1, x2, , xd 是对不同种类特征的测量值,Ji j ()
表示使用括号中特征时第i 类与第j类可分性判据函数。
9
7.2 类别可分性判据
构造可分性判据
(3) 判据具有“距离”的某些特性,即 : J i j 0 ,当 i j 时; J i j 0 ,当 i j 时; Ji j J ji
(1 s)C1 sC2
1 (m(1)
m(2) ) 1 ln 2
(1 s)C1 sC2 C1 1s C2 s
JB
1 (m(1) 8
m(2)
)
T
C1
C2 2
1
(m(1)
m(2) )
1 ln 2
1 2
(C1
C2
)
C1 1/2 C2 1/2
31
7.2.2基于类的概率密度函数的可分性判据
JC
1 s(1 s)(m(1) 2
m(2) )T
(1 s)C1 sC2
1 (m(1)
m(2) ) 1 ln 2
(1 s)C1 sC2 C1 1s C2 s
JB
1 (m(1) 8
m(2)
)
T
C1
C2 2
1
(m(1)
m(2) )
1 ln 2
1 2
(C1
C2
)
C1 1/2 C2 1/2
(4) 对特征数目是单调不减,即加入新的特征后, 判据值不减。
Ji j (x1, x2 , , xd ) Ji j (x1, x2 , , xd , xd 1 )
10
7.2 类别可分性判据
构造可分性判据
值得注意的是:上述的构造可分性判据的要求,即 “单调性”、“叠加性”、“距离性”、“单调不 减性”。在实际应用并不一定能同时具备,但并不 影响它在实际使用中的价值。
因为f(0)=f(1) = 0 ,当 0 s 1 时 f ’(s) = a-b-asb1-s (ln a - ln b)=0 a=b
从而有 f(s)=0 a=b ,由此有:
JC=0 p(x|1) p(x| 2 )
29
Jc 性质(5)证明:
设P(e)为最小误分概率,则:
P0(e) min P(e) minP(1)
0 < s <1
25
7.2.2基于类的概率密度函数的可分性判据
JC 具有如下性质:
(1) 对一切0 < s < 1 , J C 0 ; (2) 对一切0 < s < 1 , JC 0 p(xr 1) p(xr 2 ) ;
(3) 当参数s 和1 s互调时,有对称性,
JC (1,2;s) JC (2 ,1;1 s)
1 NiN j
Ni k 1
Nj
(
xk
(
i
)
l 1
xl
(
j)
)T
(
xk
(i
)
xl
(
j)
)
16
7.2.1基于几何距离的可分性判据
(七)各类模式之间的总的均方距离
d 2(x)
1 2
c
Pi
i1
c
Pj
j1
1 NiN j
Ni k 1
N j d 2 ( xk(i) ,xl( j) )
l 1
当取欧氏距离时,总的均方距离为
22
7.2.2基于类的概率密度函数的可分性判据
(一) Bhattacharyya 判据( JB )
受相关概念与应用的启发,我们可以构造 B - 判
据,它的计算式为
J B ln
p ( xr 1 ) p ( xr 2 )
1 2
d
xr
W
式中W 表示特征空间。在最小误判概率准则下,误判
概率有
1
15
7.2.1基于几何距离的可分性判据
(五) 类内离差矩阵
(六)
Si
1 Ni
Ni
(xk
(i
)
k 1
m(i
)
)(
xk
(i
)
m(i) )T
显然 d 2 (i ) Tr[Si ]
两类之间的距离
d 2 (i , j )
1 NiN j
Ni k 1
Nj
d
2
(
xk
(i)
,
xl
(
j
)
)
l 1
d 2 (i , j )
i j
) )
W
p(xi ) ln
p(xi ) p(x j )
d
x
j 对i 类的平均可分性信息为:
I
ji
( x)
Ej
ln
p(x j ) p(xi )