模式识别 第七章 特征提取与选择
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
J i j ( x1 , x 2 ,L, x d ) = ∑ J i j ( x k )
k =1 d
x 式中, 是对不同种类特征的测量值, 式中, 1 , x 2 ,L , x d 是对不同种类特征的测量值,JΒιβλιοθήκη Baidu j (⋅)
表示使用括号中特征时第i 类与第j类可分性判据函数 类可分性判据函数。 表示使用括号中特征时第 类与第 类可分性判据函数。
k =1
Ni
r (i ) r r (i ) r T 类间离差 S B = ∑ Pi ( m − m )( m − m )
r r r T 1 N r 总体离差 ST = ∑ ( xl − m )( x l − m ) = SW + S B N l =1
易导出
r d ( x ) = Tr[ SW + S B ] = Tr[ S T ]
13
7.2.1基于几何距离的可分性判据 7.2.1基于几何距离的可分性判据 ( 四) 类内距离
1 2 d (ω i ) = Ni r (i ) r (i ) T r (i ) r (i ) ∑ (xk − m ) ( xk − m )
k =1 Ni
类内均方欧氏距离
类内均方距离也可定义为: 类内均方距离也可定义为:
在特征空间中,当类内模式较密聚, 在特征空间中,当类内模式较密聚,而不同类的 模式相距较远时,从直觉上我们知道分类就较容 模式相距较远时, 易,由各判据的构造可知,这种情况下所算得的 由各判据的构造可知, 判据值也较大。 判据值也较大。由判据的构造我们还可以初步了 解运用这类判据的原则和方法。 解运用这类判据的原则和方法。
k =1 l =1
15
Ni
7.2.1基于几何距离的可分性判据 7.2.1基于几何距离的可分性判据 (七)各类模式之间的总的均方距离
c r 1 c 1 2 d ( x ) = ∑ Pi ∑ Pj 2 i =1 j =1 N i N j
r (i ) r ( j ) ∑∑ d ( xk ,xl )
2 k =1 l =1
1 ( d c (ωi ) = d 2 ( xki ) , xl( i ) ) ∑∑ N i ( N i − 1) k =1 l =1
2 Ni Ni
14
7.2.1基于几何距离的可分性判据 7.2.1基于几何距离的可分性判据 ( 五) 类内离差矩阵
Sω i
( 六)
1 = Ni
r (i ) r (i ) r (i ) r (i ) T ∑ (xk − m )( xk − m )
[
]
个原始特征中的任意d 个特征, 式中xi1 , xi 2 , L , xid 是n 个原始特征中的任意 个特征, 上式表示直接寻找n 维特征空间中的d 维子空间。 上式表示直接寻找 维特征空间中的 维子空间。 主要方法有:分支定界法、 主要方法有:分支定界法、用回归建模技术确定相 关特征等方法。 关特征等方法。 等方法
6
第七章 特征提取与选择
7.2
类别可分性判据
7
7.2 类别可分性判据
构造可分性判据
为确立特征提取和选择的准则: 为确立特征提取和选择的准则:引入类别可分性 判据,来刻划特征对分类的贡献。 判据,来刻划特征对分类的贡献。为此希望所构造 的可分性判据满足下列要求: 的可分性判据满足下列要求: (1) 与误判概率(或误分概率的上界、下界)有单调关系。 与误判概率(或误分概率的上界、下界)有单调关系。 (2) 当特征相互独立时,判据有可加性, 当特征相互独立时,判据有可加性,即 :
5
7.1概述 概述
特征提取与选择的两个基本途径
取最大的目标下, (2)变换法,在使判据J 取最大的目标下,对n 变换法, 个原始特征进行变换降维, 个原始特征进行变换降维,即对原n 维特征空间 进行坐标变换,然后再取子空间。 进行坐标变换,然后再取子空间。 主要方法有:基于可分性判据的特征选择、 主要方法有:基于可分性判据的特征选择、基于 误判概率的特征选择、离散K 变换法(DKLT)、 误判概率的特征选择、离散K-L变换法(DKLT)、 (DKLT) 基于决策界的特征选择等方法。 基于决策界的特征选择等方法。 等方法
i j
16
7.2.1基于几何距离的可分性判据 7.2.1基于几何距离的可分性判据 ( 八) 多类情况下总的类内、 多类情况下总的类内、类间及总体离差矩阵
c c
1 SW = ∑ Pi Sωi = ∑ Pi 类内离差 Ni i =1 i =1
c i =1
r (i ) r (i ) r (i ) r (i ) T ∑ ( xk − m )( xk − m )
k =1 Ni
i = 1,2, L , c
c r r m = ∑ Pi m ( i ) 各类模式的总体均值矢量
i =1
为相应类的先验概率, Pi 为相应类的先验概率,当用统计量代替先验概 率时,总体均值矢量可表示为: 率时,总体均值矢量可表示为:
c c r r (i ) N i r (i ) 1 c Ni r ( i ) 1 N r m = ∑ Pi m = ∑ m = ∑∑ xk = ∑ xl N i =1 k =1 N l =1 i =1 i =1 N
10
7.2 类别可分性判据
7.2.1基于几何距离的可分性判据 7.2.1基于几何距离的可分性判据
一般来讲, 一般来讲,不同类的模式可以被区分是由于它们 所属类别在特征空间中的类域是不同的区域。 所属类别在特征空间中的类域是不同的区域。 显然,区域重叠的部分越小或完全没有重叠, 显然,区域重叠的部分越小或完全没有重叠,类 别的可分性就越好。 别的可分性就越好。 因此可以用距离或离差测度(散度) 因此可以用距离或离差测度(散度)来构造类别 的可分性判据。 的可分性判据。
k =1
Ni
显然 两类之间的距离
1 2 d (ω i , ω j ) = Ni N j
Ni Nj 2 k =1 l =1
d (ω i ) = Tr[ Sωi ]
2
r (i ) r ( j ) ∑∑ d ( xk , xl )
Nj
1 d (ω i , ω j ) = Ni N j
2
r (i ) r ( j ) T r (i ) r ( j ) ∑∑ ( xk − xl ) ( xk − xl )
J i j ( x1 , x 2 ,L, x d ) ≤ J i j ( x1 , x 2 ,L, x d , x d +1 )
9
7.2 类别可分性判据
构造可分性判据
值得注意的是:上述的构造可分性判据的要求, 值得注意的是:上述的构造可分性判据的要求,即 “单调性”、“叠加性”、“距离性”、“单调不 单调性” 叠加性” 距离性” 减性” 在实际应用并不一定能同时具备, 减性”。在实际应用并不一定能同时具备,但并不 影响它在实际使用中的价值。 影响它在实际使用中的价值。
分类识别的正确率取决于对象的表示、 分类识别的正确率取决于对象的表示、训练学 习和分类识别算法, 习和分类识别算法,我们在前面各章的介绍中详细 讨论了后两方面的内容。 讨论了后两方面的内容。本章介绍的特征提取与选 择问题则是对象表示的一个关键问题。 择问题则是对象表示的一个关键问题。
3
第七章 特征提取与选择
r r s 1− s r J C = − ln ∫ p( x ω1 ) p( x ω 2 ) dx
Ω
∆ J C (ω1 , ω 2 ;s ) ∆ J C ( s;x1 , x2 , L , xn )∆ J C ( s ) 0 < s <1
20
7.2.2基于类的概率密度函数的可分性判据 7.2.2基于类的概率密度函数的可分性判据 可用两类概密函数的重叠程度来度量可分性, 可用两类概密函数的重叠程度来度量可分性, 构造基于类概密的可分性判据。 构造基于类概密的可分性判据。此处的所谓重叠 程度是指两个概密函数相似的程度。 程度是指两个概密函数相似的程度。
7.1概述 概述
通常在得到实际对象的若干具体特征之 后,再由这些原始特征产生出对分类识别最 有效、数目最少的特征, 有效、数目最少的特征,这就是特征提取与 选择的任务。从本质上讲, 选择的任务。从本质上讲,我们的目的是使 在最小维数特征空间中异类模式点相距较远 类间距离较大), ),而同类模式点相距较近 (类间距离较大),而同类模式点相距较近 类内距离较小)。 (类内距离较小)。
Ω
∫
1
表示特征空间。在最小误判概率准则下, 式中 Ω 表示特征空间。在最小误判概率准则下,误判 概率有
P0 ( e ) ≤ [P ( ω 1 ) P ( ω 2 ) ] exp [− J B ]
22
1 2
7.2.2基于类的概率密度函数的可分性判据 7.2.2基于类的概率密度函数的可分性判据
(二) Chernoff 判据 ( J C )
8
7.2 类别可分性判据 (3)
构造可分性判据
判据具有“距离”的某些特性, 判据具有“距离”的某些特性,即 :
J i j > 0 ,当 i ≠ j 时;
J i j = 0 ,当 i = j 时; Ji j = J ji
(4) 对特征数目是单调不减,即加入新的特征后, 对特征数目是单调不减,即加入新的特征后, 判据值不减。 判据值不减。
r r (i ) 1 d ( x , {a k }) = Ni
2
r r (i ) ∑ d ( x, ak )
2 k =1
12
Ni
7.2.1基于几何距离的可分性判据 7.2.1基于几何距离的可分性判据 ( 三) 类内及总体的均值矢量
r (i ) 1 类的均值矢量: 类的均值矢量: m = Ni r (i ) ∑ xk
19
7.2 类别可分性判据
7.2.2基于类的概率密度函数的可分性判据 7.2.2基于类的概率密度函数的可分性判据
考虑两类问题。上图是一维的两类概率分布密度。 考虑两类问题。上图是一维的两类概率分布密度。 表示两类是完全可分的。 (a) 表示两类是完全可分的。 (b)是完全不可分的。 (b)是完全不可分的。 是完全不可分的
Ni
Nj
当取欧氏距离时,总的均方距离为 当取欧氏距离时, N N c c r (i ) r ( j ) T r (i ) r ( j ) 1 1 2 r d ( x ) = ∑ Pi ∑ Pj ∑∑ ( xk − xl ) ( xk − xl ) 2 i =1 j =1 N i N j k =1 l =1
4
7.1概述 概述
特征提取与选择的两个基本途径
(1)直接选择法:当实际用于分类识别的特征数目d 直接选择法: 确定后, 个原始特征中选出d 确定后,直接从已获得的n 个原始特征中选出d 个特征 x1 , x2 , L , xd,使可分性判据J 的值满足下 式:
J ( x1 , x2 ,L , xd ) = max J ( xi1 , xi 2 ,L , xid )
第七章 特征提取与选择
类别可分性判据 离散K-L变换及其在特征提取 离散K 与选择中的应用
1
第七章 特征提取与选择
7.1 概
述
2
第七章 特征提取与选择
7.1概述 概述
模式识别的三大核心问题: 模式识别的三大核心问题: •特征数据采集 特征数据采集 •分类识别 分类识别 •特征提取与选择 特征提取与选择
11
7.2.1基于几何距离的可分性判据 7.2.1基于几何距离的可分性判据 ( 一) 点与点的距离
1/ 2 r r T r r 1/ 2 n r r 2 d (a , b ) = (a − b ) (a − b ) = ∑ (a k − bk ) k =1
[
]
( 二)
点到点集的距离 用均方欧氏距离表示 均方欧氏距离表示
2
17
7.2.1基于几何距离的可分性判据 7.2.1基于几何距离的可分性判据
J1 = Tr S S B
[
−1 W
]
Tr[ S B ] J3 = Tr[ SW ]
SB J 2 = ln SW SW + S B ST J4 = = SW SW
18
7.2.1基于几何距离的可分性判据 7.2.1基于几何距离的可分性判据
21
7.2.2基于类的概率密度函数的可分性判据 7.2.2基于类的概率密度函数的可分性判据
判据( (一) Bhattacharyya 判据( J B ) 受相关概念与应用的启发, 受相关概念与应用的启发,我们可以构造B -判 据,它的计算式为
JB r r r = − ln [p ( x ω 1 ) p ( x ω 2 ) ]2 d x
k =1 d
x 式中, 是对不同种类特征的测量值, 式中, 1 , x 2 ,L , x d 是对不同种类特征的测量值,JΒιβλιοθήκη Baidu j (⋅)
表示使用括号中特征时第i 类与第j类可分性判据函数 类可分性判据函数。 表示使用括号中特征时第 类与第 类可分性判据函数。
k =1
Ni
r (i ) r r (i ) r T 类间离差 S B = ∑ Pi ( m − m )( m − m )
r r r T 1 N r 总体离差 ST = ∑ ( xl − m )( x l − m ) = SW + S B N l =1
易导出
r d ( x ) = Tr[ SW + S B ] = Tr[ S T ]
13
7.2.1基于几何距离的可分性判据 7.2.1基于几何距离的可分性判据 ( 四) 类内距离
1 2 d (ω i ) = Ni r (i ) r (i ) T r (i ) r (i ) ∑ (xk − m ) ( xk − m )
k =1 Ni
类内均方欧氏距离
类内均方距离也可定义为: 类内均方距离也可定义为:
在特征空间中,当类内模式较密聚, 在特征空间中,当类内模式较密聚,而不同类的 模式相距较远时,从直觉上我们知道分类就较容 模式相距较远时, 易,由各判据的构造可知,这种情况下所算得的 由各判据的构造可知, 判据值也较大。 判据值也较大。由判据的构造我们还可以初步了 解运用这类判据的原则和方法。 解运用这类判据的原则和方法。
k =1 l =1
15
Ni
7.2.1基于几何距离的可分性判据 7.2.1基于几何距离的可分性判据 (七)各类模式之间的总的均方距离
c r 1 c 1 2 d ( x ) = ∑ Pi ∑ Pj 2 i =1 j =1 N i N j
r (i ) r ( j ) ∑∑ d ( xk ,xl )
2 k =1 l =1
1 ( d c (ωi ) = d 2 ( xki ) , xl( i ) ) ∑∑ N i ( N i − 1) k =1 l =1
2 Ni Ni
14
7.2.1基于几何距离的可分性判据 7.2.1基于几何距离的可分性判据 ( 五) 类内离差矩阵
Sω i
( 六)
1 = Ni
r (i ) r (i ) r (i ) r (i ) T ∑ (xk − m )( xk − m )
[
]
个原始特征中的任意d 个特征, 式中xi1 , xi 2 , L , xid 是n 个原始特征中的任意 个特征, 上式表示直接寻找n 维特征空间中的d 维子空间。 上式表示直接寻找 维特征空间中的 维子空间。 主要方法有:分支定界法、 主要方法有:分支定界法、用回归建模技术确定相 关特征等方法。 关特征等方法。 等方法
6
第七章 特征提取与选择
7.2
类别可分性判据
7
7.2 类别可分性判据
构造可分性判据
为确立特征提取和选择的准则: 为确立特征提取和选择的准则:引入类别可分性 判据,来刻划特征对分类的贡献。 判据,来刻划特征对分类的贡献。为此希望所构造 的可分性判据满足下列要求: 的可分性判据满足下列要求: (1) 与误判概率(或误分概率的上界、下界)有单调关系。 与误判概率(或误分概率的上界、下界)有单调关系。 (2) 当特征相互独立时,判据有可加性, 当特征相互独立时,判据有可加性,即 :
5
7.1概述 概述
特征提取与选择的两个基本途径
取最大的目标下, (2)变换法,在使判据J 取最大的目标下,对n 变换法, 个原始特征进行变换降维, 个原始特征进行变换降维,即对原n 维特征空间 进行坐标变换,然后再取子空间。 进行坐标变换,然后再取子空间。 主要方法有:基于可分性判据的特征选择、 主要方法有:基于可分性判据的特征选择、基于 误判概率的特征选择、离散K 变换法(DKLT)、 误判概率的特征选择、离散K-L变换法(DKLT)、 (DKLT) 基于决策界的特征选择等方法。 基于决策界的特征选择等方法。 等方法
i j
16
7.2.1基于几何距离的可分性判据 7.2.1基于几何距离的可分性判据 ( 八) 多类情况下总的类内、 多类情况下总的类内、类间及总体离差矩阵
c c
1 SW = ∑ Pi Sωi = ∑ Pi 类内离差 Ni i =1 i =1
c i =1
r (i ) r (i ) r (i ) r (i ) T ∑ ( xk − m )( xk − m )
k =1 Ni
i = 1,2, L , c
c r r m = ∑ Pi m ( i ) 各类模式的总体均值矢量
i =1
为相应类的先验概率, Pi 为相应类的先验概率,当用统计量代替先验概 率时,总体均值矢量可表示为: 率时,总体均值矢量可表示为:
c c r r (i ) N i r (i ) 1 c Ni r ( i ) 1 N r m = ∑ Pi m = ∑ m = ∑∑ xk = ∑ xl N i =1 k =1 N l =1 i =1 i =1 N
10
7.2 类别可分性判据
7.2.1基于几何距离的可分性判据 7.2.1基于几何距离的可分性判据
一般来讲, 一般来讲,不同类的模式可以被区分是由于它们 所属类别在特征空间中的类域是不同的区域。 所属类别在特征空间中的类域是不同的区域。 显然,区域重叠的部分越小或完全没有重叠, 显然,区域重叠的部分越小或完全没有重叠,类 别的可分性就越好。 别的可分性就越好。 因此可以用距离或离差测度(散度) 因此可以用距离或离差测度(散度)来构造类别 的可分性判据。 的可分性判据。
k =1
Ni
显然 两类之间的距离
1 2 d (ω i , ω j ) = Ni N j
Ni Nj 2 k =1 l =1
d (ω i ) = Tr[ Sωi ]
2
r (i ) r ( j ) ∑∑ d ( xk , xl )
Nj
1 d (ω i , ω j ) = Ni N j
2
r (i ) r ( j ) T r (i ) r ( j ) ∑∑ ( xk − xl ) ( xk − xl )
J i j ( x1 , x 2 ,L, x d ) ≤ J i j ( x1 , x 2 ,L, x d , x d +1 )
9
7.2 类别可分性判据
构造可分性判据
值得注意的是:上述的构造可分性判据的要求, 值得注意的是:上述的构造可分性判据的要求,即 “单调性”、“叠加性”、“距离性”、“单调不 单调性” 叠加性” 距离性” 减性” 在实际应用并不一定能同时具备, 减性”。在实际应用并不一定能同时具备,但并不 影响它在实际使用中的价值。 影响它在实际使用中的价值。
分类识别的正确率取决于对象的表示、 分类识别的正确率取决于对象的表示、训练学 习和分类识别算法, 习和分类识别算法,我们在前面各章的介绍中详细 讨论了后两方面的内容。 讨论了后两方面的内容。本章介绍的特征提取与选 择问题则是对象表示的一个关键问题。 择问题则是对象表示的一个关键问题。
3
第七章 特征提取与选择
r r s 1− s r J C = − ln ∫ p( x ω1 ) p( x ω 2 ) dx
Ω
∆ J C (ω1 , ω 2 ;s ) ∆ J C ( s;x1 , x2 , L , xn )∆ J C ( s ) 0 < s <1
20
7.2.2基于类的概率密度函数的可分性判据 7.2.2基于类的概率密度函数的可分性判据 可用两类概密函数的重叠程度来度量可分性, 可用两类概密函数的重叠程度来度量可分性, 构造基于类概密的可分性判据。 构造基于类概密的可分性判据。此处的所谓重叠 程度是指两个概密函数相似的程度。 程度是指两个概密函数相似的程度。
7.1概述 概述
通常在得到实际对象的若干具体特征之 后,再由这些原始特征产生出对分类识别最 有效、数目最少的特征, 有效、数目最少的特征,这就是特征提取与 选择的任务。从本质上讲, 选择的任务。从本质上讲,我们的目的是使 在最小维数特征空间中异类模式点相距较远 类间距离较大), ),而同类模式点相距较近 (类间距离较大),而同类模式点相距较近 类内距离较小)。 (类内距离较小)。
Ω
∫
1
表示特征空间。在最小误判概率准则下, 式中 Ω 表示特征空间。在最小误判概率准则下,误判 概率有
P0 ( e ) ≤ [P ( ω 1 ) P ( ω 2 ) ] exp [− J B ]
22
1 2
7.2.2基于类的概率密度函数的可分性判据 7.2.2基于类的概率密度函数的可分性判据
(二) Chernoff 判据 ( J C )
8
7.2 类别可分性判据 (3)
构造可分性判据
判据具有“距离”的某些特性, 判据具有“距离”的某些特性,即 :
J i j > 0 ,当 i ≠ j 时;
J i j = 0 ,当 i = j 时; Ji j = J ji
(4) 对特征数目是单调不减,即加入新的特征后, 对特征数目是单调不减,即加入新的特征后, 判据值不减。 判据值不减。
r r (i ) 1 d ( x , {a k }) = Ni
2
r r (i ) ∑ d ( x, ak )
2 k =1
12
Ni
7.2.1基于几何距离的可分性判据 7.2.1基于几何距离的可分性判据 ( 三) 类内及总体的均值矢量
r (i ) 1 类的均值矢量: 类的均值矢量: m = Ni r (i ) ∑ xk
19
7.2 类别可分性判据
7.2.2基于类的概率密度函数的可分性判据 7.2.2基于类的概率密度函数的可分性判据
考虑两类问题。上图是一维的两类概率分布密度。 考虑两类问题。上图是一维的两类概率分布密度。 表示两类是完全可分的。 (a) 表示两类是完全可分的。 (b)是完全不可分的。 (b)是完全不可分的。 是完全不可分的
Ni
Nj
当取欧氏距离时,总的均方距离为 当取欧氏距离时, N N c c r (i ) r ( j ) T r (i ) r ( j ) 1 1 2 r d ( x ) = ∑ Pi ∑ Pj ∑∑ ( xk − xl ) ( xk − xl ) 2 i =1 j =1 N i N j k =1 l =1
4
7.1概述 概述
特征提取与选择的两个基本途径
(1)直接选择法:当实际用于分类识别的特征数目d 直接选择法: 确定后, 个原始特征中选出d 确定后,直接从已获得的n 个原始特征中选出d 个特征 x1 , x2 , L , xd,使可分性判据J 的值满足下 式:
J ( x1 , x2 ,L , xd ) = max J ( xi1 , xi 2 ,L , xid )
第七章 特征提取与选择
类别可分性判据 离散K-L变换及其在特征提取 离散K 与选择中的应用
1
第七章 特征提取与选择
7.1 概
述
2
第七章 特征提取与选择
7.1概述 概述
模式识别的三大核心问题: 模式识别的三大核心问题: •特征数据采集 特征数据采集 •分类识别 分类识别 •特征提取与选择 特征提取与选择
11
7.2.1基于几何距离的可分性判据 7.2.1基于几何距离的可分性判据 ( 一) 点与点的距离
1/ 2 r r T r r 1/ 2 n r r 2 d (a , b ) = (a − b ) (a − b ) = ∑ (a k − bk ) k =1
[
]
( 二)
点到点集的距离 用均方欧氏距离表示 均方欧氏距离表示
2
17
7.2.1基于几何距离的可分性判据 7.2.1基于几何距离的可分性判据
J1 = Tr S S B
[
−1 W
]
Tr[ S B ] J3 = Tr[ SW ]
SB J 2 = ln SW SW + S B ST J4 = = SW SW
18
7.2.1基于几何距离的可分性判据 7.2.1基于几何距离的可分性判据
21
7.2.2基于类的概率密度函数的可分性判据 7.2.2基于类的概率密度函数的可分性判据
判据( (一) Bhattacharyya 判据( J B ) 受相关概念与应用的启发, 受相关概念与应用的启发,我们可以构造B -判 据,它的计算式为
JB r r r = − ln [p ( x ω 1 ) p ( x ω 2 ) ]2 d x