《模式识别》PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
设
分布密度为
为可能的取随值机向量x(特征向i ,量)
i 1,2的,一个, c随机变量,它的取值依赖于
。我们想知道的是:给定某一x后,我们
从 观察的结果中得到了多少信息?或者说
p( x)
的不确定性减少了多少?
从特征抽取的角度看,用具有最小不确定性的那些特征进行分类是有利的。
在信息论中用“熵”作为不确定性的度量,它是
趋近于1时,根据L’Ho
J
1 C
[ P ( 1
/
x),
P( 2
/
x),,
P ( c
/
x)]
c
当
=2时,得到平方熵
lim(21a
a1
1)1[
i 1
P a ( i
/
x) 1]
c
P(i / x) log 2 P(i / x) i 1
a
c
J
2 C
[ P ( 1
/
x),
P ( 2
/
x),,
P ( c
x),
P( 2
/
x),,
P ( c
/
x)]}
8.2 特征选择 从n个特征中挑选出m(m<n)个最有效的特征,这就是特征选择的任务。 最直接的特征选择方法是根据专家的知识挑选那些对分类最有影响的特征。 另一种是用数学方法进行筛选比较,找出最有分类信息的特征。本节只讨论用数学
方法进行特征选择。
要完成特征选择的任务,必须解决两个问题: ① 选择的标准,这可以用前面讲的类别可分性准则,选出使某一可分性达到最大的特
,
的函数。可定义如下形式的广义熵:
P(1 / x) P(2 / x)
P(c / x)
,
,…
式中,
是一个实的正参数,
。
J
a C
[
P
(1
/
x),
P ( 2
/
x),,
P ( c
/
x)]
c
(21a 1)1[ P a (i / x) 1] i 1
a
a1
不同的 spital法则有
a
a值可以得到不同的熵分离度量,例如当
/
x)]
2[1
P 2 (i / x)]
i 1
显然,为了对所提取的特征进行评价,我们要计算空间每一点的熵函数。在熵 函数取值较大的那一部分空间,不同类的样本必然在较大的程度上互相重叠。因此熵 函数的期望值
可以表征类别的分离程度,它可用来作为所提取特征的分类性能的准则函数。
J •
E{
J
a C
[
P
(
1
/
第8章 特征选择与提取
特征抽取的目的是获取一组“少而精”的分类特征,即获取特征数目少且 分类错误概率小的特征向量。
特征抽取常常分几步进行。 第一步:特征形成 第二步:特征选择 第三步;待征提取
本章只讨论特征选择和特征提取的方法
8.1 类别可分性准则 特征选择或特征提取的任务是从n个特征中求出对分类最有效的m个特
8.1.1 基于距离的可分性准则 各类样本之间的距离越大,则类别可分
性越大。因此,可以用各类样本之间的距离的平 均值作为可分性准则
Jd
1 2
c
Pi
i 1
c
Pj
j 1
1 NiN j
D(xi , x j )
xi i x j j
(8.1-1)
式中,c为类别数;Ni为i 类中样本数;Nj为j
类中样本数;Pi , Pj
希望实用的可分性准则满足下列几条要求: ①与错误概率有单调关系。 ②度量特性:
这里 是第i类和J第ij j类0的, 可当分性i 准则j时函数, 越大,两类的分离程度就越大。
③单调性,即加入新J的ij=特0征, 时当,i准=则j时函数值不减小。
J ij=J ji
J ij
J ij
J ij ( x1 , x2 ,, xd ) J ij ( x1 , x2 ,, xd , xd 1 )
征组来。 ② 找一个较好的算法,以便在较短的时间内找出最优的那一组特征。
有两个极端的特征选择算法,一个是单独选择法,另一个是穷举选择法。
1. 单独选择法 就是把n个特征每个特征单独使用时的可分性准则函数值都算出来,按准则
函数值从大到小排序,如 J(x1)>J(x2)>…>J(xm)>…J(xn)
然后,取使J较大的前m个特征作为选择结果。 问题:这样得到的m个特征是否就是一个最优的特征组呢?
mi )(xi
mi )T 的迹。
c i 1
Pi i 为类内离散度矩阵,
为
类间离散度矩阵。
Jd tr(Sw Sb )
tr(Sw Sb )
Sw Sb
Sw
Sb
我们希望类内离散度尽量小,类间离散度 尽量大,因此除 Jd (x) 外,还可以提出下列准则 函数
J2
tr
(
S
1 w
S
b
)
J3
|
S
1 w
征(m<n)。 需要一个定量的准则来衡量选择结果的好坏。
从理论上讲,设计分类器,那么用分类器的错误概率作为准则就行了。 但是,从第四章中错误概率的计算公式就会发现,即使在类条件概率密度已知 的情况下错误概率的计算就很复杂,何况实际问题中概率分布常常不知道,这使得直 接用错误概率作为准则来评价特征的有效性比较困难。 希望找出另外一些更实用的准则来衡量各类间的可分性 。
Sb
|
8.1.2 基于熵函数的可分性准则
最佳分类器由后验概率确定,所以可
由特征的后验概率分布来衡量它对分类的有
效性。如果对某些特征,各类后验概率是相
等的,即
P ( i
/
x)
1 c
其中c为类别数,则我们将无从确定样本所
Leabharlann Baidu
属类别,或者我们只能任意指定x属于某一类
(假定先验概率相等或不知道),此时其错误
概率为
表示所有各类的样本集总平均向量
mi
mi
1 Ni
xi
xi i
m
c
m Pi mi i 1
(8.1-2) (8.1-3)
也可以用下面定义的矩阵写出 的表达式。
令 c Sb Pi (mi m)T (mi m) i 1
Jd
(8.1-4) (8.1-5)
则 其中
Sw
c i 1
P表i N示1i 取xi矩i(阵x i
是相应类别的先验概D(率xi ,;x j )
是样本xi x与j 之间的距离。
如果采用欧氏距离,即有
式中,
D(xi , x j ) xi x j T xi x j
c
1
表示第Ji类d 样i本1集Pi的[ N均i 值xi向i(量x
i
mi )T ( x i
mi )
(mi m)T (mi m)]
1 Pe 1 c
另一个极端情况是,如果能有一组特征使得
此时x划归 P类(,其i /错x误)概率1为, 0。且P( j / x) 0 , j i
可见后验概率越集中,错误概率就越小。后验概率分布越平缓(接近均匀分布)
,则分类错误概率就越i 大。
为了衡量后验概率分布的集中程度,需要规定一个定量准则,我们可以借助于 信息论中关于熵的概念。