模式识别讲义-特征提取和特征选择
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
则进行变换后,Chernoff概率距离为:
Jc(W
ቤተ መጻሕፍቲ ባይዱ
)
1 2
s(1
s)tr{W
T
M W[{1
s)WT
1W
sW
T
2W
]1}
1 2
ln
|
(1
s)W
T 1W
sW
T 2W
|
1 2
(1
s) ln
|W
T 1W
|
1 2
s
ln
|W
T 2W
|
式中M (2 1)(2 1)T
提取时,需要加大Jb,减小Jw,来获得满意的分类效果。
因此,常使用以下准则:
J 2
tr
S S -1 wb
Sb J 3 ln[ ]
Sw
J 4 tr(Sb) tr(Sw)
Sw Sb J5
Sw
•假设对原始特征进行了提取 (变换),如变换的参数使 得准则函数取得了最大值, 则是最优的特征选取。
Pe--错误率 Ped(n)--训练集上利用n个样本得到的错误率估计 Pet(n)--测试集上利用n个样本得到的错误率估计
p(x 1)P(1)
p(x 2 )P(2 )
2、二类贝叶斯分类中的错误率
R1
YT
R2
x
第一类判错:P1(e) P(x R2 1) R2 p(x 1)dx
d
此时,J(2 W)= i i 1
例题
三、特征提取算法
2、使用概率距离进行特征提取
下面只对使用Chernoff概率距离进行介绍:
假设有D个原始特征:x [x1,x2,...,xD]T ,通过线性
变换后压缩为d个特征:y [y1,y2,...,yd]T , 其变换关系为: y W T x 再假设只分两类,且两类都是正态分布,
总错误率P(e) P(x R2 1) P(x R3 1) ... P(x RM 1)P(1) P(x R1 2 ) P(x R3 2 ) ... P(x RM 2 )P(2 ) ... P(x R1 M ) P(x R2 M ) ... P(x RM 1 M )P(M )
三、特征提取算法
2、使用概率距离进行特征提取
将它对W的各分量求偏导数,并令其为0,同时假定 [(1 s)W T 1W sW T 2W ]不等于0,则最优变换阵W一定满足: MW [(1 s)1W s2W ][(1 s)W T 1W sW T 2W ]1W T MW 1W[I (W T 1W )1W T 2W ] 2W[I (W T 2W )1W T 1W ] 0
了一个模式。 ■ 特征空间中的一个区域,则代表了一个模式类。
特征:
颜色 形状
特征值:
颜色=1.24 形状=0.37
特征向量:
x=[x1,x2] =[颜色,形状]
特征空间
一、基本概念
1、好的分类器: 特征具有良好的可分性 特征不要重复,去掉相关性高的特征
2、特征提取和特征选择的目的 降低特征维数,减少信息冗余 提高特征对类别的分辨能力 寻找对分类最重要的特征
•将过程中所有可能的组合情况组合成一棵搜索树;特征 数少的组合作为特征数多的组合的子节点;
•按特定路线遍历整个搜索树,计算所遇到的每个节点的 准则函数;
•如遇到某个节点的准则函数值比已得到的特征数更少的 节点的准则函数值还小,则放弃其下所有节点的计算;
3、分支定界算法 例:原始特征={x1,x2,x3,x4,x5}
第二类判错:P2 (e) P(x R1 2 ) R1 p(x 2 )dx
总错误率:P(e) P(1)P1(e) P(2 )P2 (e)
R2 P(1) p(x 1)dx R1 P(2 ) p(x 2 )dx(多维积分)
使错误率最小条件:P(1)P(x 1) P(2 )P(x 2 )
D=5,d=2
开始
(2)搜索树的构造:
•根节点为0级,包含D个
特征; •每一级舍弃1个特征;
x1
x2 x3
•下一级在上一级基础上继
续舍弃特征; •整个搜索树共有D-d级
•该方程在一般情况下无解析解,只有次优解析解。 •在Σ1=Σ2或μ1=μ2,有最优解析解。
四、特征选择算法
从n个特征中挑选出m个最有效的特征,这就是 特征选择的任务。
最直接的方法是根据专家的知识挑选那些对分 类最有影响的特征。
另一种是用数学方法进行筛选比较,找出最有 分类信息的特征。
四、特征选择算法
模式识别 第八讲 特征选择与特征提取
内容
基本概念 距离定义 特征提取算法 特征选择算法
一 基本概念
复习 (1)特征:
■ 特征是从对应于一个模式类的所有信息中提取出 来的,可以用来进行模式识别的部分属性。
■ 特征可以是数值型的,也可以是非数值型的。 ■ 特征一定有确切的定义和表示方法。 (2)特征空间: ■ 特征空间中的每一个点(每一种取值),都代表
1 ni
ni
x(i) k
mi
T
x(i) k
mi
mi m T
mi m
i1
k 1
二、距离
(1)类内类间距离
令类内散布矩阵和类间 散布矩阵分别为
Sw
c
ni
Pi
1 ni
xk(i) mi T
xk(i) mi
i 1
k 1
Sb
c
Pi
5、模式类别可分性的测度
(1)特征提取和特征选择准则
错误率是最佳的特征提取和特征选择准则函数,但难 以计算。
可用的类别可分性测度标准应满足以下要求:
与错误率有单调关系 d
当特征独立时具有可加性 Jij(x1,x2,...,xd) Jij(xk)
具有标量测度特性 对特征具单调性
1、穷举算法
从D个特征中选择最优的d个特征,可对所有可能的d 个特征组合计算其准则函数,寻找其最优值,从而得 到最佳特征组合。
问题: 若D=100,d=10,则计算次数为:
q CDd
D! 100! 1731030945 (D d )!d! (100 10)!10!
6440
基本不可计算。
三、特征提取算法
1、使用类内类间距离进行特征提取 以准则函数J2为例,说明如何求得最优提取变换:
假设有D个原始特征:x [x1,x2,...,xD]T ,通过线性 变换后压缩为d个特征:y [y1,y2,...,yd]T , 其变换关系为: y W T x 令Sw,Sb为原始特征空间的散布矩阵, Sw *,Sb *为变换后特征空间的散布矩阵;
四、特征选择算法
2、独立算法 分别计算D个特征单独使用时的准则函数,选
取最优的前d个特征作为最优特征。
问题: 除极特殊情况外,所得特征组合均不是最优特 征组合。
四、特征选择算法
3、分支定界算法
利用准则函数对特征数量的单调性,在穷举算法时可 跳过大量计算,是最优算法。
(1)算法原理:
•从原特征数D开始依次减少特征数,至到达所需特征数 d
则有 (xk(i),xl( j))=(xk(i)-xl( j))(T xk(i)-xl( j))
ni
用mi表示第i类样本集的均值向量:
mi
1 ni
x(i) k
k 1
c
用m表示所有各类样本集的总平均向量:m Pimi i 1
则
Jd(x)
c
Pi
Jij 0,当i j时
Jij
0,当i
j时
Jij
Jji
k 1
Jij(x1,x2,...,xd) Jij(x1,x2,...,xd,xd+1)
二、距离
(1)类内类间距离
设一个分类问题共有 c类,
令xk(i),xl( j)分别为i类及 j类中的D维特征向量,
(xk(i),xl( j)) 为这两个向量间的距 离,则各类中
各特征向量之间的距离 的平均值,称为类内类 间距离:
c
c
ni nj
Jd ( x)
1 2
Pi Pj
1 ninj
(xk(i),xl( j))
i1 j1
k 1 l 1
ni为i中的样本数,
nj为
中的样本数,
j
Pi,Pj是各类
的先验概率。
二、距离
(1)类内类间距离
如采用欧氏距离来度量两个特征向量之间的距离,
完全可分:若p(x|ω1) ≠0时, p(x|ω2)=0;
完全不可分:对任意x,都有 p(x|ω1) = p(x|ω2);
二、距离
(2)概率距离
若任何函数Jp g[ p(x | 1), p(x | 2), P1, P2]dx满足以下条件:
a、Jp 0; b、当两类完全可分时 Jp取得最大值; c、当两类完全不可分是 Jp为0;
则可作为两类之间可分 性的概率距离度量
二、距离
(2)概率距离 几种常见的概率距离:
• Bhattacharyya(巴特查雅)距离
1
JB ln [ p(x | 1) p(x | 2)]2 dx
• Chernoff(切诺夫)距离
JC ln ps (x | 1) p(x | 2)1s dx, 0 s 1
二、距离
(2)概率距离
• 散度 似然比表达了两类之间的可分性,定义对数似然比为:
lij(x) ln p(x | i) p(x | j)
则可用两类间的平均对数似然比来作为概率距离,称为散度:
JD E[lij(x)] E[lji(x)]
p(x | i) ln p(x | i) dx p(x | j)ln p(x | j) dx
X
p(x | j)
X
p(x | i)
[ p(x | i) p(x | j)]ln p(x | i) dx
X
p(x | j)
三、特征提取算法
1、使用类内类间距离进行特征提取类内类间距离
Jd=Jw+Jb=tr(Sw+Sb)
其中Jw是类内平均距离,Jb是类间平均距离 通常给定一个训练集后,Jd是固定的,因此,在特征
P(e)min
YT
P(2 )P(x
2 )dx
YT P(1)P(x 1)dx
若P(1 x) P(2 x),则x 1, 这时错误率为P(2 x).
P(e
x)
P( 2 P(1
x),当x 1 x),当x 2
最小错误率
3、多类贝叶斯分类中的错误率
三、特征提取算法
1、使用类内类间距离进行特征提取
则准则函数在变换后为:
J 2 tr Sw *-1 Sb * tr [(WT SwW)-1W T SbW]
可将此式对W的各分量求偏导数并令其为0 来求得J 2取极值时的W, 得到:设矩阵Sw1Sb的本征值为λ 1,λ 2,...,λ D, 按大小排序为:λ 1 λ 2 ... λ D, 则前d个特征值对应的特征向量可构成W。
M M
P(x Rj j ) P(i )(计算量很大)
i1 j1
ji
M
用平均正确分类概率:P(M ) P(x Ri i )P(i ) i 1
M
i 1
P(x
Ri
i )P(i )dx
错误率:P(e) 1 P(M ),计算相对简单。
一、基本概念
3、特征提取
w
通过某种变换,将原始特征
x
2
ω
1
从高维空间映射到低维空间。 y1 T:ER=>ED
ω
w(y)
T为特征提取器,通常
y2
2
是某种正交变换。
4、特征选择
从一组特征中挑选出一些最有效的特征的过程。
J(F*)=min J(F),集合F包含d个特征,J()是准则函数
一、基本概念
模式识别 第八讲 特征选择与特征提取
回顾:
贝叶斯分类的原理 最小错误率贝叶斯分类 最小风险贝叶斯分类 最大似然比贝叶斯分类 正态分布情况下的贝叶斯分类
分类器的错误率
1、分类器的错误率
•错误率是评价一个分类器的重要指标 •错误率受分类决策方法、训练集、测试集和偶然因 素的影响 •分类错误是一个概率事件,错误率应由概率方式表 达
mi
m
T
mi
m
i 1
则 Jd(x) trSw Sb tr(Sw) tr(Sb) Jw Jb
从分类器的性能来看, 我们希望Jw尽可能小, Jb尽可能大。
二、距离
(2)概率距离 类间的概率距离可用分布函数之间的距离来度量
p(x 1)
p(x 2 )
p(x 1)= p(x 2 )