模式识别与人工智能
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
据值不减。
J i j ( x1 , x2 ,, xd ) J i j ( x1 , x2 ,, xd , xd 1 )
【概念】
类可分别判断函数 Jij ( x) 值得注意的是:上述的构造可分性判据的要求,即 “单调性”、“叠加性”、“距离性”、“单调不 减性”。在实际应用并不一定能同时具备,但并不
(i ) d ( x , ak )
2 k 1
Ni
基于几何距离的类可分离判据
(三 ) 类内及总体的均值矢量
(i ) 1 类的均值矢量: m Ni (i ) xk
k 1 Ni
i 1,2, , c
c (i ) 各类模式的总体均值矢量 m Pi m i 1
基于几何距离的类可分离判据
(五) 类内离差矩阵
1 Si Ni
(i ) (i ) (i ) (i ) T (xk m )(xk m )
k 1
Ni
显然 (六) 两类之间的距离
1 d ( i , j ) Ni N j
2 Ni Nj 2 k 1 l 1
d (i ) Tr[Si ]
2
(i ) ( j ) d ( xk , xl )
Nj
1 2 d ( i , j ) Ni N j
( xk xl ) ( xk xl )
k 1 l 1
Ni
基于几何距离的类可分离判据
(七)各类模式之间的总的均方距离
基于几何距离的类可分离判据
(一 ) 点与点的距离
1/ 2 n 1 / 2 T 2 d (a , b ) (a b ) (a b ) (a k bk ) k 1
(二 )
点到点集的距离 用均方欧氏距离表示
1 2 (i ) d ( x, {ak }) Ni
例 用RGB颜色空间和HSI颜色空间
【问题的提出】
【问题的提出】
【概念】
【概念】
【概念】
2 类别可分离性判据
【概念】
特征选择与提取的任务是找出一组对分类最有效的特征, 因此需一准则。 概念:数学上定义的用以衡量特征对分类的效果的准 则实际问题中需根据实际情况人为确定。 误识率判据:理论上的目标,实际采用困难(密度未 知,形式复杂,样本不充分,…) 可分性判据:实用的可计算的判据
基于几何距离的类可分离判据
(八 ) 多类情况下总的类内、类间及总体离差矩阵
c c
1 类内离差 SW Pi Si Pi Ni i 1 i 1
c i 1
(i ) (i ) (i ) (i ) T ( xk m )(xk m )
k 1
Ni
(i ) (i ) T 类间离差 S B Pi (m m)(m m)
影响它在实际使用中的价值。
19
类可分别判断依据的常用方法:
基于几何距离的可分性判据 基于概率密度的可分性判据 基于熵的类可分性判据
基于几何距离的类可分离判据
一般来讲,不同类的模式可以被区分是由于它们所属类 别在特征空间中的类域是不同的区域。 显然,区域重叠的部分越小或完全没有重叠,类别的可 分性就越好。 因此可以用距离或离差测度(散度)来构造类别的可分 性判据。
Pattern Recognition & artificial Intelligence
Lecture 2: 特征选择与提取(一)
1.引言
2 类别可分离性判据
3 特征选择 4.特征提取
1.引言
【问题的提出】
对特征空间的改造、优化、主要的目的是降维,即把维数 高的特征空间改成维数低的特征空间。
2.如果用颜色、尺寸与重量组成的特征空间来区分苹果 与梨,这三种度量中的哪种最有效? 为什么? 能否想像这两种水果在这个三维空间的分布?如果用 这个特征空间来区分红苹果与樱桃,你想像一下这两 类水果在特征空间如何分布? 能否对这两种情况设计更经济有效的特征空间?
【问题的提出】
3.如果两类物体在一个二 维特征空间如图分布,能 否用删除其中任一维来 优化特征空间?有没有 什么方法能得到一个对 分类很有利的一维特征 空间?
(6)最小误判概率
P0 (e) P (1 ) s P ( 2 )1 s exp J C (1 , 2 ;s) ( 0 < s < 1)
基于概率分布的可分性判据
Jc 性质(1)证明:
考虑函数 f(s) = sa+(1-s)b- asb1-s (a,b>0)
因为,当 0 s 1 时 f ’’(s) = -asb1-s(ln a - ln b)2 < 0 (ab)
W
P ( 1 ) p( x 1 ) P ( 2 ) p( x 2 )
12 /
12 /
dx
W
P ( 1 ) P ( 2 )
W
p( x 1 ) p( x 2 )
12 /
dx
/ P ( 1 ) P ( 2 ) 12 exp J B
表示使用括号中特征时第i 类与第j类可分性判据函数。
【概念】
类可分别判断函数 Jij ( x)
(3) 判据具有“距离”的某些特性,即 :
J i j 0 ,当 i j 时; J i j 0 ,当 i j 时;
Ji j J ji
(4) 对特征数目是单调不减,即加入新的特征后,判
(4)当 x 的各分量 x1 , x2 , , xn 相互独立时, J C ( s; x1 , x2 ,, xn ) J C ( s; xl )
l 1 n
基于概率分布的可分性判据
JC 具有如下性质:
x (5)当 的各分量 x1 , x2 , , xn 相互独立时,有 J C ( s; x1 , x2 , , xk 1 ) J C ( s; x1 , x2 , , xk 1 , xk ) ( k n)
【概念】
类可分别判断函数
Jij ( x)
(1) 与误判概率(或误分概率的上界、下界)有单调关系。 (2) 当特征相互独立时,判据有可加性,即 :
J i j ( x1 , x 2 ,, xd ) J i j ( x k )
k 1
d
式中, x1 , x 2 ,, xd 是对不同种类特征的测量值,J i j ( )
基于几何距离的类可分离判据
选择原则:
i. 实际分类问题需要,找与分类性能关系密切者。 ii. 计算简单,易于实现。 iii. 数学上容易处理。
准则函数的递推计算问题:每增/减一个特征,只影响向量 中的一个元素,矩阵的一行和一列。
基于概率分布的可分性判据
考查两类分布密度之间的交叠程度
基于概率分布的可分性判据
SB J 2 ln SW
SW SB ST J4 SW SW
基于几何距离的类可分离判据
在特征空间中,当类内模式较密聚,而不同类的 模式相距较远时,从直觉上我们知道分类就较容 易,由各判据的构造可知,这种情况下所算得的 判据值也较大。由判据的构造我们还可以初步了 解运用这类判据的原则和方法。
Pi 为相应类的先验概率,当用统计量代替先验概 率时,总体均值矢量可表示为:
c c (i ) N i ( i ) 1 c Ni ( i ) 1 N m Pi m m xk xl N i 1 k 1 N l 1 i 1 i 1 N
基于几何距离的类可分离判据
降维主要有两种途径。一种是删选掉一些次要的特征,问 题在于如何确定特征的重要性,以及如何删选。另一种方 法是使用变换的手段,在这里主要限定在线性变换的方法 上,通过变换来实现降维,这两种方法的区分要弄清楚。
【问题的提出】
1.什么叫特征空间?如果我们用颜色、尺寸、重量来衡 量水果的构造的特特空间是几维空间?
1 N T 总体离差 ST ( xl m)( xl m) SW S B N l 1
易导出
d ( x) Tr SW SB Tr ST
2
各模式之间总的均方距离
基于几何距离的类可分离判据
J1 Tr S S B
1 W
Tr S B J3 Tr SW
【问题的提出】
4.上题的答案可用右图 Y1 与 Y2 组成的空间表示。你 认为哪个分量可以删掉?
5.将原在X1、X2空间表示的数改成用Y1、Y2空间表示?
【问题的提出】
1.描述事物方法的选择与设计
方案1.从框架的左边框到数字之间的距离 变化反映了不同数字的不同形状,这可以 用来作为数字分类的依据。
(四 ) 类内距离
1 2 d (i ) Ni (i ) (i ) T (i ) (i ) (x k m ) ( x k m )
k 1 Ni
类内均方欧氏距离 类内均方距离也可定义为:
Ni Ni 1 2 (i ) (i ) d c (i ) d ( x , x k l ) Ni ( Ni 1) k 1 l 1 2
JC 具有如下性质:
(1)对一切 0 < s < 1 , J C (2)对一切 0 < s < 1 , J C
0;
0 p( x p( x 2 ) ; 1)
(3)当参数 s 和 (1 s ) 互调时,有对称性,
J C (1 , 2 ; s ) J C ( 2 , 1 ;1 s )
方案2.强调分析不同截面的信号,如 在框架的若干部位沿不同方向截取截 面分析从背景到字,以及从字到背景 转换的情况,如AB截面切割字符三次, CD截面切割字符一次等。
【问题的提出】
2.特征空间的优化
这个层次的工作发生在已有了特征的描述方法之后,也就是已 有了一个初始的特征空间,如何对它进行改造与优化的问题。一 般说来要对初始的特征空间进行优化是为了降维。即初始的特征 空间维数较高。能否改成一个维数较低的空间,称为优化,优化 后的特征空间应该更有利于后续的分类计算
1 W
式中 W 表示特征空间。在最小误判概率准则下,误判
概率有
P 0 ( e ) P ( 1 ) P ( 2 ) exp J
1 2 B
基于概率分布的可分性判据
证明:设 P (e) 为误分概率,则最小误分概率为:
P0 ( e) minP ( e) min P ( 1 ) p( x 1 ) d x P ( 2 ) p( x 2 ) d x W2 W1 min P ( 1 ) p( x ), P ( ) p ( x ) d x 1 2 2
基于概率分布的可分性判据
(二) Chernoff 判据 ( J C )
s 1 s J C ln p( x 1 ) p( x 2 ) dx
W
J C (1 , 2 ;s) J C (s;x1, x2 ,, xn )J C (s) 0 < s <1
基于概率分布的可分性判据
可用两类概密函数的重叠程度来度量可分性, 构造基于类概密的可分性判据。此处的所谓重叠 程度是指两个概密函数相似的程度。
32
基于概率分布的可分性判据
(一) Bhattacharyya 判据( J B ) 受相关概念与应用的启发,我们可以构造B -判 据,它的计算式为
J
B
2 ln p ( x ) p ( x dx 1 2)
c 1 c 1 2 d ( x ) Pi Pj 2 i 1 j 1 N i N j
(i ) ( j ) d ( xk ,xl )
2 k 1 l 1
Ni
Nj
当取欧氏距离时,总的均方距离为 Ni N j c c (i ) ( j ) T (i ) ( j ) 1 1 2 d ( x ) Pi Pj ( x k xl ) ( x k xl ) 2 i 1 j 1 N i N j k 1 l 1
J i j ( x1 , x2 ,, xd ) J i j ( x1 , x2 ,, xd , xd 1 )
【概念】
类可分别判断函数 Jij ( x) 值得注意的是:上述的构造可分性判据的要求,即 “单调性”、“叠加性”、“距离性”、“单调不 减性”。在实际应用并不一定能同时具备,但并不
(i ) d ( x , ak )
2 k 1
Ni
基于几何距离的类可分离判据
(三 ) 类内及总体的均值矢量
(i ) 1 类的均值矢量: m Ni (i ) xk
k 1 Ni
i 1,2, , c
c (i ) 各类模式的总体均值矢量 m Pi m i 1
基于几何距离的类可分离判据
(五) 类内离差矩阵
1 Si Ni
(i ) (i ) (i ) (i ) T (xk m )(xk m )
k 1
Ni
显然 (六) 两类之间的距离
1 d ( i , j ) Ni N j
2 Ni Nj 2 k 1 l 1
d (i ) Tr[Si ]
2
(i ) ( j ) d ( xk , xl )
Nj
1 2 d ( i , j ) Ni N j
( xk xl ) ( xk xl )
k 1 l 1
Ni
基于几何距离的类可分离判据
(七)各类模式之间的总的均方距离
基于几何距离的类可分离判据
(一 ) 点与点的距离
1/ 2 n 1 / 2 T 2 d (a , b ) (a b ) (a b ) (a k bk ) k 1
(二 )
点到点集的距离 用均方欧氏距离表示
1 2 (i ) d ( x, {ak }) Ni
例 用RGB颜色空间和HSI颜色空间
【问题的提出】
【问题的提出】
【概念】
【概念】
【概念】
2 类别可分离性判据
【概念】
特征选择与提取的任务是找出一组对分类最有效的特征, 因此需一准则。 概念:数学上定义的用以衡量特征对分类的效果的准 则实际问题中需根据实际情况人为确定。 误识率判据:理论上的目标,实际采用困难(密度未 知,形式复杂,样本不充分,…) 可分性判据:实用的可计算的判据
基于几何距离的类可分离判据
(八 ) 多类情况下总的类内、类间及总体离差矩阵
c c
1 类内离差 SW Pi Si Pi Ni i 1 i 1
c i 1
(i ) (i ) (i ) (i ) T ( xk m )(xk m )
k 1
Ni
(i ) (i ) T 类间离差 S B Pi (m m)(m m)
影响它在实际使用中的价值。
19
类可分别判断依据的常用方法:
基于几何距离的可分性判据 基于概率密度的可分性判据 基于熵的类可分性判据
基于几何距离的类可分离判据
一般来讲,不同类的模式可以被区分是由于它们所属类 别在特征空间中的类域是不同的区域。 显然,区域重叠的部分越小或完全没有重叠,类别的可 分性就越好。 因此可以用距离或离差测度(散度)来构造类别的可分 性判据。
Pattern Recognition & artificial Intelligence
Lecture 2: 特征选择与提取(一)
1.引言
2 类别可分离性判据
3 特征选择 4.特征提取
1.引言
【问题的提出】
对特征空间的改造、优化、主要的目的是降维,即把维数 高的特征空间改成维数低的特征空间。
2.如果用颜色、尺寸与重量组成的特征空间来区分苹果 与梨,这三种度量中的哪种最有效? 为什么? 能否想像这两种水果在这个三维空间的分布?如果用 这个特征空间来区分红苹果与樱桃,你想像一下这两 类水果在特征空间如何分布? 能否对这两种情况设计更经济有效的特征空间?
【问题的提出】
3.如果两类物体在一个二 维特征空间如图分布,能 否用删除其中任一维来 优化特征空间?有没有 什么方法能得到一个对 分类很有利的一维特征 空间?
(6)最小误判概率
P0 (e) P (1 ) s P ( 2 )1 s exp J C (1 , 2 ;s) ( 0 < s < 1)
基于概率分布的可分性判据
Jc 性质(1)证明:
考虑函数 f(s) = sa+(1-s)b- asb1-s (a,b>0)
因为,当 0 s 1 时 f ’’(s) = -asb1-s(ln a - ln b)2 < 0 (ab)
W
P ( 1 ) p( x 1 ) P ( 2 ) p( x 2 )
12 /
12 /
dx
W
P ( 1 ) P ( 2 )
W
p( x 1 ) p( x 2 )
12 /
dx
/ P ( 1 ) P ( 2 ) 12 exp J B
表示使用括号中特征时第i 类与第j类可分性判据函数。
【概念】
类可分别判断函数 Jij ( x)
(3) 判据具有“距离”的某些特性,即 :
J i j 0 ,当 i j 时; J i j 0 ,当 i j 时;
Ji j J ji
(4) 对特征数目是单调不减,即加入新的特征后,判
(4)当 x 的各分量 x1 , x2 , , xn 相互独立时, J C ( s; x1 , x2 ,, xn ) J C ( s; xl )
l 1 n
基于概率分布的可分性判据
JC 具有如下性质:
x (5)当 的各分量 x1 , x2 , , xn 相互独立时,有 J C ( s; x1 , x2 , , xk 1 ) J C ( s; x1 , x2 , , xk 1 , xk ) ( k n)
【概念】
类可分别判断函数
Jij ( x)
(1) 与误判概率(或误分概率的上界、下界)有单调关系。 (2) 当特征相互独立时,判据有可加性,即 :
J i j ( x1 , x 2 ,, xd ) J i j ( x k )
k 1
d
式中, x1 , x 2 ,, xd 是对不同种类特征的测量值,J i j ( )
基于几何距离的类可分离判据
选择原则:
i. 实际分类问题需要,找与分类性能关系密切者。 ii. 计算简单,易于实现。 iii. 数学上容易处理。
准则函数的递推计算问题:每增/减一个特征,只影响向量 中的一个元素,矩阵的一行和一列。
基于概率分布的可分性判据
考查两类分布密度之间的交叠程度
基于概率分布的可分性判据
SB J 2 ln SW
SW SB ST J4 SW SW
基于几何距离的类可分离判据
在特征空间中,当类内模式较密聚,而不同类的 模式相距较远时,从直觉上我们知道分类就较容 易,由各判据的构造可知,这种情况下所算得的 判据值也较大。由判据的构造我们还可以初步了 解运用这类判据的原则和方法。
Pi 为相应类的先验概率,当用统计量代替先验概 率时,总体均值矢量可表示为:
c c (i ) N i ( i ) 1 c Ni ( i ) 1 N m Pi m m xk xl N i 1 k 1 N l 1 i 1 i 1 N
基于几何距离的类可分离判据
降维主要有两种途径。一种是删选掉一些次要的特征,问 题在于如何确定特征的重要性,以及如何删选。另一种方 法是使用变换的手段,在这里主要限定在线性变换的方法 上,通过变换来实现降维,这两种方法的区分要弄清楚。
【问题的提出】
1.什么叫特征空间?如果我们用颜色、尺寸、重量来衡 量水果的构造的特特空间是几维空间?
1 N T 总体离差 ST ( xl m)( xl m) SW S B N l 1
易导出
d ( x) Tr SW SB Tr ST
2
各模式之间总的均方距离
基于几何距离的类可分离判据
J1 Tr S S B
1 W
Tr S B J3 Tr SW
【问题的提出】
4.上题的答案可用右图 Y1 与 Y2 组成的空间表示。你 认为哪个分量可以删掉?
5.将原在X1、X2空间表示的数改成用Y1、Y2空间表示?
【问题的提出】
1.描述事物方法的选择与设计
方案1.从框架的左边框到数字之间的距离 变化反映了不同数字的不同形状,这可以 用来作为数字分类的依据。
(四 ) 类内距离
1 2 d (i ) Ni (i ) (i ) T (i ) (i ) (x k m ) ( x k m )
k 1 Ni
类内均方欧氏距离 类内均方距离也可定义为:
Ni Ni 1 2 (i ) (i ) d c (i ) d ( x , x k l ) Ni ( Ni 1) k 1 l 1 2
JC 具有如下性质:
(1)对一切 0 < s < 1 , J C (2)对一切 0 < s < 1 , J C
0;
0 p( x p( x 2 ) ; 1)
(3)当参数 s 和 (1 s ) 互调时,有对称性,
J C (1 , 2 ; s ) J C ( 2 , 1 ;1 s )
方案2.强调分析不同截面的信号,如 在框架的若干部位沿不同方向截取截 面分析从背景到字,以及从字到背景 转换的情况,如AB截面切割字符三次, CD截面切割字符一次等。
【问题的提出】
2.特征空间的优化
这个层次的工作发生在已有了特征的描述方法之后,也就是已 有了一个初始的特征空间,如何对它进行改造与优化的问题。一 般说来要对初始的特征空间进行优化是为了降维。即初始的特征 空间维数较高。能否改成一个维数较低的空间,称为优化,优化 后的特征空间应该更有利于后续的分类计算
1 W
式中 W 表示特征空间。在最小误判概率准则下,误判
概率有
P 0 ( e ) P ( 1 ) P ( 2 ) exp J
1 2 B
基于概率分布的可分性判据
证明:设 P (e) 为误分概率,则最小误分概率为:
P0 ( e) minP ( e) min P ( 1 ) p( x 1 ) d x P ( 2 ) p( x 2 ) d x W2 W1 min P ( 1 ) p( x ), P ( ) p ( x ) d x 1 2 2
基于概率分布的可分性判据
(二) Chernoff 判据 ( J C )
s 1 s J C ln p( x 1 ) p( x 2 ) dx
W
J C (1 , 2 ;s) J C (s;x1, x2 ,, xn )J C (s) 0 < s <1
基于概率分布的可分性判据
可用两类概密函数的重叠程度来度量可分性, 构造基于类概密的可分性判据。此处的所谓重叠 程度是指两个概密函数相似的程度。
32
基于概率分布的可分性判据
(一) Bhattacharyya 判据( J B ) 受相关概念与应用的启发,我们可以构造B -判 据,它的计算式为
J
B
2 ln p ( x ) p ( x dx 1 2)
c 1 c 1 2 d ( x ) Pi Pj 2 i 1 j 1 N i N j
(i ) ( j ) d ( xk ,xl )
2 k 1 l 1
Ni
Nj
当取欧氏距离时,总的均方距离为 Ni N j c c (i ) ( j ) T (i ) ( j ) 1 1 2 d ( x ) Pi Pj ( x k xl ) ( x k xl ) 2 i 1 j 1 N i N j k 1 l 1