模式识别特征选择与提取
模式识别特征的选择和提取
1. 模式最优表示特征的提取 假定有一n维向量x,希望能用m(< n) 个向量的线性组合来近似x,这m个向量来自 一组标准正交基{uj,j = 1,2,…,n}。 即把x近似表示为前m个基的组合:
~ x
= y1u1 + y2u2 + … + ymum
式中 yj = ujT x
写成矩阵形式, ~ x = Um y ( n × m,m × 1 ) → n × 1 y = UmT x ( m × n,n × 1 ) → m × 1
模式特征的产生过程一般包括以下步骤:
1.原始特征的形成:用仪表或传感器测量 出来的一些特征量,或通过计算得到的一些 特征(对波形和图象),称为原始特征、原 始测量或一次特征。
2.特征提取:原始特征的数量可能很 大,需要通过变换(映射)把高维特征空间 降到低维空间,这时的特征叫二次特征,它 们一般是原始特征的某种组合。 通过变换A: X Y,
下面的分析说明确实是这样。假定e是 Gi的标准特征向量,那么相应特征值λ 可以 表示为 c 1 T T T ( e R e ( 1 e R k e) λ = e Gie = i
c
k 1 k i
由于λ max≤1和相关矩阵的半正定性质, ∴上式括号中每一个二次项的特征值在0~1 之间,∴ 0≤λ ≤1。 而且λ 接近于1时要求eTRie→1,而 eTRke(k≠i)却→0,
和前面一样,令{uj,j = 1,2,…,n} 是观测空间的标准正交基。另x是任一观测 向量,x~是它的截尾表示形式, x~ = y1u1 + y2u2 + … + ymum 对于第i类,我们选择一组uj,它能使 第i类的均方误差最小, εi = Ei[|x-x~|2] =
模式识别讲义-特征提取和特征选择
完全可分:若p(x|ω1) ≠0时, p(x|ω2)=0;
完全不可分:对任意x,都有 p(x|ω1) = p(x|ω2);
二、距离
(2)概率距离
若任何函数Jp g[ p(x | 1), p(x | 2), P1, P2]dx满足以下条件:
a、Jp 0; b、当两类完全可分时 Jp取得最大值; c、当两类完全不可分是 Jp为0;
总错误率P(e) P(x R2 1) P(x R3 1) ... P(x RM 1)P(1) P(x R1 2 ) P(x R3 2 ) ... P(x RM 2 )P(2 ) ... P(x R1 M ) P(x R2 M ) ... P(x RM 1 M )P(M )
X
p(x | j)
Xp(x | i)来自 [ p(x | i) p(x | j)]ln p(x | i) dx
X
p(x | j)
三、特征提取算法
1、使用类内类间距离进行特征提取类内类间距离
Jd=Jw+Jb=tr(Sw+Sb)
其中Jw是类内平均距离,Jb是类间平均距离 通常给定一个训练集后,Jd是固定的,因此,在特征
模式识别 第八讲 特征选择与特征提取
回顾:
贝叶斯分类的原理 最小错误率贝叶斯分类 最小风险贝叶斯分类 最大似然比贝叶斯分类 正态分布情况下的贝叶斯分类
分类器的错误率
1、分类器的错误率
•错误率是评价一个分类器的重要指标 •错误率受分类决策方法、训练集、测试集和偶然因 素的影响 •分类错误是一个概率事件,错误率应由概率方式表 达
各特征向量之间的距离 的平均值,称为类内类 间距离:
c
模式识别(7-2)特征的选择与提取
5 4
,
54
试用K-L变换作一维数据压缩。
思路:1)求总体均值向量;2)求产生矩阵ψ ; 3)求产生矩阵的特征值λi 及特征向量 i ;
4)按λi排序,确定变换矩阵W; 5)利用 y W T x 求新的一维样本。
K-L变换的一些典型应用
上面我们从数学的角度分析了K-L变换的 性质。归结起来,它消除了各分量之间的 相关性,因而用它来描述事物时,可以减 少描述量的冗余性,做到用最经济有效的 方法描述事物。下面结合一些应用实例来 说明如何运用K-L变换的这一性质。
但是由于它的正交基函数族是从训练样本集中计算出 来的,因此并不存在一种对任何数据都适用的K-L变 换基,一般的作法是先用一组训练数据计算出K-L变 换基,然后用这组基来分析其它数据。
K-L变换的性质
K-L变换的性质
K-L变换的性质
K-L变换的产生矩阵
当样本所属类别未知时:
x的相关函数矩阵 x的协方差矩阵
§7.3 基于K-L展开式的特征提取
图6-3b
图6-3(b)中的向量A与B在一个二维空间定义,它们两者分别含有成 分为(a1,a2)与(b1,b2),a1与b1是两者的同一种成分,a2与b2则是 另一种成分。故它们的点积定义为a1b1+a2b2,在这种条件下就不 需要积分,而只是简单求和。
§7.3 基于K-L展开式的特征提取
K-L变换的一些典型应用
4.人脸图象合成
用K-L变换构造参数模型的另一种典型用途是人 脸图象合成。从下面的例子中可以看出,有目 的地控制各个分量的比例,也就是通过调整参 数向量。可以将一幅不带表情图象改变成带各 种表情的图象,称为人脸表情图象合成。
为了对复杂事物进行经济有效的描述,我们希望将其分解 成相互独立的成分,譬如我们分析其快速变化的成分时, 就希望它只不再混杂其它成分。
特征选择、特征提取MATLAB算法实现(模式识别)
特征选择、特征提取MATLAB算法实现(模式识别)6特征选择6.1问题对“threethreelarge.m”数据,采⽤任意⼀种特征选择算法,选择2个特征6.2思路采⽤简单特征选择法(simple feature selection approach),⾸先计算每⼀个特征的分类能⼒值,再选择出其中最⼤分类能⼒的l个特征。
6.3结果eigs=8.92340.00000.0767SelectedFeature=13也就是说,选取x和z坐标作为特征。
6.4代码%特征选择代码,见FSthrthrlrg.m⽂件m1=[0,0,0];m2=[0,0,0];m3=[0,0,0];m=[0,0,0];for i=1:200m1(1)=m1(1)+(x1(i,1)-m1(1))/i;m1(2)=m1(2)+(x1(i,2)-m1(2))/i;m1(3)=m1(3)+(x1(i,3)-m1(3))/i;end;for i=1:190m2(1)=m2(1)+(x2(i,1)-m2(1))/i;m2(2)=m2(2)+(x2(i,2)-m2(2))/i;m2(3)=m2(3)+(x2(i,3)-m2(3))/i;end;for i=1:210m3(1)=m3(1)+(x3(i,1)-m3(1))/i;m3(2)=m3(2)+(x3(i,2)-m3(2))/i;m3(3)=m3(3)+(x3(i,3)-m3(3))/i;end;m(1)=(m1(1)+m2(1)+m3(1))/3;m(2)=(m1(2)+m2(2)+m3(2))/3;m(3)=(m1(3)+m2(3)+m3(3))/3;sw1=zeros(3,3);sw2=zeros(3,3);sw3=zeros(3,3);sw=zeros(3,3);sb=zeros(3,3);for i=1:200sw1=sw1+([x1(i,1),x1(i,2),x1(i,3)]-m1)'*([x1(i,1),x1(i,2),x1(i,3)]-m1);end;for i=1:190sw2=sw2+([x2(i,1),x2(i,2),x2(i,3)]-m2)'*([x2(i,1),x2(i,2),x2(i,3)]-m2);end;for i=1:210sw3=sw3+([x3(i,1),x3(i,2),x3(i,3)]-m3)'*([x3(i,1),x3(i,2),x3(i,3)]-m3);end;N1=200;N2=190;N3=210;N=N1+N2+N3;p1=N1/N;p2=N2/N;p3=N3/N;sw1=sw1/N1;sw2=sw2/N2;sw3=sw3/N3;sw=p1*sw1+p2*sw2+p3*sw3;sb=p1*(m1-m)'*(m1-m)+p2*(m2-m)'*(m2-m)+p3*(m3-m)'*(m3-m);s=inv(sw)*sb;j1=trace(s)eigs=eig(s)';eigsIndex=[1,2,3];%冒泡法排序,注意的是特征值顺序变化的同时要与相对应的下标同步for i=1:3for j=i:3if(eigs(i)eigstemp=eigs(i);eigs(i)=eigs(j);eigs(j)=eigstemp;eigsIndextemp=eigsIndex(i);eigsIndex(i)=eigsIndex(j);eigsIndex(j)=eigsIndextemp;end;end;end;%降序排列后的特征值,直接选取前L个特征SelectedFeature=[eigsIndex(1),eigsIndex(2)]%FSthrthrlrg.m程序结束6.5讨论从实验结果中我们可以看到y特征的分类能⼒最⼩,这⼀点可以从实验数据中得到验证——三类数据在y⽅向的分布⼏乎是相同的(见下图)。
模式识别7-特征选择和提取
了识别对象的某些特征,简单地删去某些特征可能会
丢失较多的有用信息。
• 如果将原来的特征做正交变换,获得的每个数据都是
原来n个数据的线性组合,然后从新的数据中选出少
数几个,使其尽可能多地反映各类模式之间的差异,
而这些特征间又尽可能相互独立,则比单纯的选择方
➢遗传算法
单独最优特征组合
特征
选择
计算各特征单独使用时的可分性判据J并加
以排队,取前d个作为选择结果
不一定是最优结果
当可分性判据对各特征具有(广义)可加性,
该方法可以选出一组最优的特征来,例:
➢各类具有正态分布
➢各特征统计独立
➢可分性判据基于Mahalanobis距离
d
J ij ( x1 , x2 ,..., xd ) J ij ( xk ) J D (x) (μi μ j )T 1(μi μ j )
k 1
顺序前进法
特征
选择
自下而上搜索方法。
每次从未入选的特征中选择一个特征,使得
它与已入选的特征组合在一起时所得的J值
为最大,直至特征数增加到d为止。
该方法考虑了所选特征与已入选特征之间的
相关性。
顺序后退法
特征
选择
该方法根据特征子集的分类表现来选择特征
搜索特征子集:从全体特征开始,每次剔除
➢ 当特征独立时有可加性:
k 1
➢ 单调性:
J ij ( x1 , x2 ,..., xd ) J ij ( x1 , x2 ,..., xd , xd 1 )
常见类别可分离性判据:基于距离、概率分布、熵
函数
模式识别第六讲 特征提取(介绍)v1.0
解得特征根为 1 5.83 , 2 2.00 ,3 0.17
0.383 U1 0.924
0.000
0 U 2 0
1
0.924 U3 0.383
0.000
第一个主成分的贡献率为5.83/(5.83+2.00+0.17)=72.875%,尽 管第一个主成分的贡献率并不小,但应该取两个主成分。97.88%
u
pp
则实对称阵 A 属于不同特征根所对应的特征向 量是正交的,UU UU I
PCA的一些性质
(3)均值 E(UT x) UT M (4)方差为所有特征根之和
pห้องสมุดไป่ตู้
Var(Fi ) 1 2
p
12
2 2
2 p
i 1
说明主成分分析把P个随机变量的总方差分解成为
在普通特征上MKL表现有限
结论:特征更重要(?)
特征的数量越多越好?
一般而言,特征越多,给出信息就越多,识别准确性会得到提升; 但特征多,计算复杂度增加,探索的空间大,可以用来训练的数据在 每个特征上就会稀疏。 结论:不一定特征越多越好!需要有多少个特征,需要学习确定。
目前结论:关于训练样本的数量
PCA图形几何解释(一)
为了方便,我们在二维空间中讨论主成分的几何意义。 设 有n个样本,每个样本有两个观测变量xl和x2,在由变量xl和x2 所确定的二维平面中,n个样本点所散布的情况如椭圆状。由 图可以看出这n个样本点无论是沿着xl 轴方向或x2轴方向都具 有较大的离散性,其离散的程度可以分别用观测变量xl 的方差 和x2 的方差定量地表示。显然,如果只考虑xl和x2 中的任何一 个,那么包含在原始数据中的信息将会有较大的损失。
模式识别 第6章 特征的选择和提取
基于熵函数的可分性判据
c
Shannon熵:
J
1 c
P(i | x) log2 P(i | x)
i 1
平方熵:
J
2 c
2 1
c i1
P2 (i
|
x)
© 李春权
模式识别
哈尔滨医科大学
生物信息科学与技术学院
200192
‹#›
目录
6.1引言
6.2 类别可分离性判据
6.3 特征提取
6.4 特征选择(重点)
GSFS法计算量大(每步有C
L D-k
个候选
特征组需要逐个计算)。另外它也无法剔
除已入选的特征。
© 李春权
模式识别
哈尔滨医科大学
生物信息科学与技术学院
200192
‹#›
顺序后退法
顺序后退法(Sequential Backward Selection, SBS)是一种自上而下的方法,它从全体特征开 始每次剔除一个,所剔除的特征应使仍然保留的 特征组的J值最大,直到特征数减少到d为止。 设已剔除了k个特征,剩下的特征组为 Xk ,将 Xk 中的各特征xj按上述J值大小排序,j=1,2,…,D-k。 若 J (Xk x1) J (Xk x2 ) J (Xk xDk ) 则 Xk1 Xk x1
(1)当L>r时,L-r法是一种自下而上的算法,先 执行第一步,然后执行第二步,开始时,设置k=0 ,x0=空
(2)当L<r时,L-r法是一种自上而下的算法,此 时先执行第二步,然后执行第一步,开始时设置 k=0,x0={x1,…,xD}
© 李春权
模式识别
哈尔滨医科大学
生物信息科学与技术学院
200192
第七章特征的选择与提取
8
7.1 引言
优化特征空间的两种基本方法
特征选择 (selection):从原始特征中挑选出最有 代表性,分类性能最好的特征;
特征提取 (extraction):用映射(或变换)的方法 把原始特征变换为较少的新特征。
特征的选择与提取与具体问题有很大关系,目前 没有理论能给出对任何问题都有效的特征选择与 提取方法。
有限样本集下离散度矩阵的估计
样本类均值向量 :
mi
1 ni
ni
x(i) k
;
k 1
样本总体均值向量 :
c
m Pimi ; i 1
样本类间离散度矩阵: S b c Pi (mi m)(mi m)T ; i 1
样本类内离散度矩阵:
S w
c
Pi
i 1
1 ni
ni
(x (ki )
m i
)(x
4. 单调性:Jij (x1, x2 ,..., xd ) Jij (x1, x2 ,..., xd , xd1).
10
7.2 类别可分离性判据
类别可分离性判据:衡量不同特征及其组合对分 类是否有效的定量准则;
理想准则:某组特征使分类器错误概率最小; 常见类别可分离性判据:
基于距离的可分性判据; 基于概率分布的判据; 熵函数的可分性判据。
2
7.1 引言
第七章 特征的选择与提取
2009-11-24
3
7.1 引言
特征的选择与提取是模式识别中重要而困难的一 个环节: 分析各种特征的有效性并选出最有代表性的特征 是模式识别的关键一步; 降低特征维数在很多情况下是有效设计分类器的 重要课题;
三大类特征:物理、结构和数学特征 物理和结构特征:易于为人的直觉感知,但有时 难于定量描述,因而不易用于机器判别 数学特征:易于用机器定量描述和判别,如基于 统计的特征
模式识别-5--特征选择与提取
1 Cj 1 Iij = ln + tr[Ci (C−1 −Ci−1)] j 2 Ci 2
当Ci和Cj之间越相近则散度越小。
1 −1 −1 Jij = tr[ Ci −Cj )(Cj −Ci )] ( 2
散度的性质 从上面的定义我们可以看出散度Jij具有如下性质: (i) Jij=Jji, (ii) 当ωi和ωj的分布不同时,Jij>0 (iii)当ωi和ωj的分布完全同时,Jij=0 (iv) 在模式特征的各个分量都相互独立的情况下,有:
Sb2 = (m −m2 )(m −m2 )t 1 1
当三类或者更多的时候就引入先验概率作为加权 :
Sb2 = (m − m2 )(m − m2 )t 表示1和2两类模式的类间散布矩阵; 1 1
Sb1 = ∑P(ω )(m − m )(m − m )t i i 0 i 0
其中 m = E{ x} = ∑P(ωi )m为多类模式(这里共c类)分布 0 i 总体的均值向量 i=1 多类模式集散布矩阵 多类的类内散布矩阵,可用各类类内散布矩阵的先验加权表示:
该式子是散度的一般表达式。 注:当ωi和ωj的分布是一些特殊的表达式子,那么对数似然比 函数和散度可以得到一些很简单形式。 当ωi和ωj服从正态分布, 散度为:
p(x | ωi ) Jij = I ji + Iij = ∫ [ p(x | ωi ) − p(x | ωj )]ln dx x p(x | ωj )
3. 特征选择和提取是构造模式识别系统的一重要课题
在很多实际问题中,往往不容易找到那些最重要的特征,或 受客观条件的限制,不能对它们进行有效的测量; 因此在测量时,由于人们心理上的作用,只要条件许可总希 望把特征取得多一些; 另外,由于客观上的需要,为了突出某些有用信息,抑制无 用信息,有意加上一些比值、指数或对数等组合计算特征 (在数据上作一些处理); 如果将数目很多的测量值不做分析,全部直接用作分类特征, 不但耗时,而且会影响到分类的效果,产生“特征维数灾难” 问题。 为了设计出效果好的分类器,通常需要对原始的测量值集合 进行分析,经过选择或变换处理,组成有效的识别特征; 在保证一定分类精度的前提下,减少特征维数,即进行“降 维”处理,使分类器实现快速、准确和高效的分类。
模式识别之特征选择和提取
p( X | i ) 与 p( X | j ) 相差愈大, J ij 越大。
当 p( X | i ) p( X | j ) ,两类分布密度相同, Jij 0 。
(3)错误率分析中,两类概率密度曲线交叠越少,错误率越小。
p(x | i )P(i )
p(x | 2 )P(2 )
p(x | 1 )P(1 )
Jd
1 2
c i 1
P(i
)
c j 1
P(
j
)
1 ni n
j
ni k 1
nj l 1
D2
(
X
i k
,
X
j l
)
(5-8)
式中, P(ωi ) 和 P( j ) :i 和 ω j 类先验概率;c:类别数;
X
i k
:
i
类的第
k
个样本;
X
j l
:
ω
j
类的第
l
个样本;
ni 和 n j :i 和 ω j 类的样本数;
② 特征选择:将坐标系按逆时针方向做一旋转变化,或物体按 顺时针方向变,并合适平移等。根据物体在 轴上投影旳x坐2' 标值 旳正负可区别两个物体。
——特征提取,一般用数学旳措施进行压缩。
5.2 类别可分性测度
类别可分性测度:衡量类别间可分性旳尺度。
类别可
分性测 度
空间分布:类内距离和类间距离 随机模式向量:类概率密度函数 错误率 与错误率有关旳距离
D2
(
X
i k
,
X
j l
)
:
X
i k
和
X
j l
间欧氏距离的平方。
清华大学模式识别课件-08_第8章特征提取和特征选择教材
8.1.1. 一些基本概念
在一些书籍和文献中,使用“特征提取” , “特征选择”等术语时的含义不完全相同。 例如, “特征提取”在有的文献中专指特征的形成过程,有的则指从形成、经选择或变换直 到得出有效特征这一全过程。在实际应用中,通过对对象进行测量,可以得到对象的一种描 述,即用测量空间中的一个点来代表这个对象。例如,通过摄像机可以把一个物体转换为一 个二维灰度阵列,即一幅图像。在一些识别任务中,不直接在测量空间中进行分类器设计。 这一方面是因为测量空间的维数很高(一个 256×256 灰度图像相当于 256×256 维测量空间 中的一个点),不适宜于分类器的设计。更重要的是这样一种描述并不能直接反映对象的本 质,并且它随摄像机位置、光照等因素的变化而变化。因此为了进行分类器设计,需要把图 像从测量空间变换到维数大大减少的特征空间, 被研究的图像或现象在这个特征空间中就由 一个特征向量来表示。 实际上这样一种变换常常分成几个步骤进行,因此在一些文献中还采用特征提取和特 征选择这样的术语。为了方便起见,我们对几个常用的有关名词作些说明。 特征形成:根据被识别的对象产生出一组基本特征,它可以是计算出来的(当识别对象 是波形或数字图像时),也可以是用仪表或传感器测量出来的(当识别对象是实物或某种过程 时),这样产生出来的特征叫做原始特征,有些书中用原始测量(或一次测量,或观察)这一名 词,我们认为在很多情况下有些原始测量就可以作为原始特征,而有些情况则不然,例如识 别对象是数字图像时,原始测量就是各点灰度值,但有时候我们不用各点灰度作为特征,而 是需要经过计算产生一组原始特征。 特征提取:原始特征的数量可能很大,或者说样本是处于一个高维空间中,通过映射 (或变换)的方法可以用低维空间来表示样本,这个过程叫特征提取。映射后的特征叫二次特 征, 它们是原始特征的某种组合(通常是线性组合)。 所谓特征提取在广义上就是指一种变换。 若 Y 是测量空间,X 是特征空间,则变换 A:Y→X 就叫做特征提取器。 特征选择:从一组特征中挑选出一些最有效的特征以达到降低特征空间维数的目的, 这个过程叫特征选择。 以细胞自动识别为例,通过图像输入得到一批包括正常及异常细胞的数字图像,我们 的任务是根据这些图像区分哪些细胞是正常的, 哪些是异常的。 首先要找出一组能代表细胞 性质的特征。为此可以计算细胞总面积、总光密度、胞核面积、核浆比、细胞形状、核内纹 理等,这样可得到很多原始特征,这一过程就是特征的形成。这样产生出来的原始特征可能 很多(例如几十甚至几百个),或者说原始特征空间维数很高,需要压缩维数以便分类。一种 方式是用变换的方法把原始特征变换为较少的新特征, 这就是特征提取。 另一种方式就是从 原始特征中去挑选出一些最有代表性的特征来, 这就是特征选择。 最简单的特征选择方法是
模式识别 第六章 特征提取与选择
(三) 类内及总体的均值矢量
类的均值矢量:
m (i)
1 Ni
Ni
xk
(i
)
k 1
i 1,2,, c
各类模式的总体均值矢量 m c Pi m (i)
i 1
Pi 为相应类的先验概率,当用统计量代替先验概 率时,总体均值矢量可表示为:
m
c i 1
Pi
只考虑连续的情况:
因为f(0)=f(1) = 0 ,当 0 s 1 时
f ’(s) = a-b-asb1-s (ln a - ln b)=0 a=b
从而有 f(s)=0 a=b ,由此有:
JC=0 p(x |1) p(x | 2 )
28
Jc 性质(5)证明:
设P(e)为最小误分概率,则:
由上式进一步可得:
P0 (e) P(1)s P( 2 )1s
p(
x
1
)
s
p(
x
2
)1
s
d
x
W
P(1)s P( 2 )1s exp JC
29
6.2.2基于类的概率密度函数的可分性判据
由JB和JC的定义知:JB=JC(1/2)
对p(两x类都1)是~正N态(分m布(1)情, C况1:)
)
)
T
C1
C2 2
1
(m (1)
m (2) )
p( x
2)
~
N (m (2)
, C2 )
JC
1 s(1 s)(m (1) 2
m (2) )T
模式识别第六章 特征提取
三大类特征:物理、结构和数学特征
特征的形成
特征形成 (acquisition):
信号获取或测量→原始测量 原始特征
实例:
数字图象中的各像素灰度值 人体的各种生理指标 原始特征分析: 原始测量不能直观反映对象本质 高维原始特征不利于分类器设计:计算量大, 冗余,样本分布十分稀疏
5
特征的选择与提取
两类提取有效信息、压缩特征空间的方 法:特征提取和特征选择
特征选择(selection) :从原始特征中挑选出 一些最有代表性,分类性能最好的特征; 特征提取 (extraction):用映射(或变换)的 方法把原始特征变换为较少的新特征;
特征的选择与提取与具体问题有很大关 系,目前没有理论能给出对任何问题都 有效的特征选择与提取方法。
类内距离和类内散布矩阵 类间距离和类间散布矩阵 多类模式向量间的距离和总体散布矩阵
Bhattacharyya判据(JB) Chernoff判据(JC) 散度判据(JD)
基于类的概率密度函数的可分性判据
基于熵函数的可分性判据
11
6.2.1 基于距离的可分性判据
基于距离的可分性判据的实质是 Fisher 准 则的延伸,即综合考虑不同类样本的类内 聚集程度与类间的离散程度这两个因素。 判据的优化体现出降维特征空间较好地体 现类内密集。一些不能体现类间分隔开的 特征很可能被排除掉了。 离散度矩阵(散布矩阵):一种描述数据 离散程度的方法。
傅立叶变换、小波变换等 用PCA方法作特征压缩
7
模式识别 第6章 特征选择与提取
第六章特征选择与提取6.1 引言6.2 类别可分性判据6.3 特征选择6.4 特征提取6.5 图象的特征提取6.1 引言基本任务:如何从多特征中找出那些最有效的特征或:获取一组”少而精”的分类特征压缩⇒⇒研究如何高维特征空间低维特征空间特征分为三类:(1)物理的; (2)结构的; (3)数学的本章研究、讨论:学习样本选择并提取数学特征⎧⎨⎩⎧⎪⎪⎪⎨⎪⎧⎪⎨⎪⎩⎩物理人们直观识别对象特征感觉器官接受结构统计平均值相关系数机器自动识别对象:数学特征本征值协方差阵本征向量基本概念1.特征形成:根据被识别的对象产生一组原始特征⎧⎨⎩传感器的直接测量值模式空间计算值(波形、数字图象)例如:细胞识别⎧⎫⎪⎪⎪⎪⎯⎯⎯→⎨⎬⎪⎪⎪⎪⎩⎭计算通过图象输入得到细胞的数字图象细胞面积总光密度原始特征胞核面积核浆比⎧⎨⇒⎩专家经验和知识方法数学方法筛选比较Y XT E E T ⇒::特征提取值(变换)器3.特征提取:通过映射或变换的方法,把模式空间的高维特征向量变成特征空间的低维特征。
2.特征选择:从一组特征中挑选出一些最有效的特征(过程)。
⎧⎪⎨⎪⎩特征评估标准解决特征选择与提取特征空间的维数优化过程⇒传感器特征形成特征选择与提取分类器⇒⇒⎯⎯⎯→决策→→→传感器特征形成特征选择与提取分类器⎯→⎯⎯→⎯⎯→⎯321Y Y Y ⎯→⎯⎯→⎯21X X ⎯⎯⎯→决策含有特征选择和提取的模式分类问题框图特征选择/提取降维过程信号6.2 类别可分性判据d D C ⇒特征选择/提取的任务:从D 个特征中选择出d个特征组合哪种组合最好准则衡量⇒找出:分类器错误率最小的那组特征(/)e i P p x ω⎧⎧⎪⎨⎨⎩⎪⎩计算理论上正确最有效的特征未知实际有困难希望找出一些使用的标准以衡量各类之间的可分性希望可分性准则满足下列几条要求:(1)与错误概率(或错误率上下界)有单调关系,这使取极值时其分类错误率也较小。
(2)度量特性:0, , 0, , ij ij ij jiij ij J i j J i j J J J i j J >≠===⎧⎨⎩当时不同类当时同类其中是第类和第类的可分性准则函数,类内分离度小越大,两类的分离程度就越大类间分离度大(3)单调性:加入新的特征时,准则函数不减小。
特征选择和特征提取
PCA构建特征脸空间 构建特征脸空间 • 基于PCA构建特征脸空间是对图像进行 变换,以去除样 基于 构建特征脸空间是对图像进行K-L变换, 构建特征脸空间是对图像进行 变换 本间的相关性,然后根据特征值的大小选择特征向量。 本间的相关性,然后根据特征值的大小选择特征向量。 • 这种方法首先将人脸图像映射为高维空间的向量,然后应 这种方法首先将人脸图像映射为高维空间的向量, 用基于统计的离散K-L变换方法 变换方法, 用基于统计的离散 变换方法,构造一个各分量互不相 关的特征空间,即特征脸空间, 关的特征空间,即特征脸空间,再将人脸图像在高维空间 中的向量映射到特征脸空间,得到特征系数。 中的向量映射到特征脸空间,得到特征系数。
ORL人脸库 英国剑桥大学 人脸库(英国剑桥大学 人脸库 英国剑桥大学)
ORL标准人脸库由40人,每人10幅112×92图像组成。这些图像是拍摄于不 同时期的;人的脸部表情和脸部细节有着不同程度的变化,比如,笑或不笑,眼 睛或睁或闭,戴或不戴眼镜;人脸姿态也有相当程度的变化,深度旋转和平面旋 转可达20度;人脸的尺度也有多达10%的变化。
j= d +1
∑
u Tj R u j 取 得 极 值
结论:以相关矩阵R的d个特征向量uj为基向量来展开x时, R x 其截断均方误差取得最小值为: ∞ ε = ∑ λj
j = d +1
K-L变换:当取矩阵R的d个最大特征值对应的特征向量来展 R 开x时,其截断均方误差最小。这d个特征向量组成的正交 x 坐标系称作x所在的D维空间的d维K-L变换坐标系, x在K-L x 坐标系上的展开系数向量y称作x的K-L变换 y x
特征的选择与提取举例
细胞自动识别:
原始测量:(正常与异常)细胞的数字图像
模式特征的提取与选择
2 类别可分性判据
模式特征的提取与选择
基于后验概率的可分性判据
原理:选择使后验熵最小的那些特征 用于分类识别。
JБайду номын сангаас=Ex[-Sp(wi|x)logp(wi|x)]
JHs=Ex[Hs(p1,p2,…,pc)]
Hs=(21-s-1)[S(pis)-1] pi=p(wi|x)
模式特征的提取与选择
3 基于可分性判据进行变换的特征提取
特征选择:
从一组特征中挑选出一些最有效的特 征以达到降低特征空间维数的目的,这 个过程叫特征选择.
有时特征提取和选择并不是截然分开 的,在具体的模式识别问题中也可以 结合使用。
2 类别可分性判据
模式特征的提取与选择
把一个高维空间变换为低维空间的映 射有很多,哪种映射对分类最有利, 需要一个比较标准,即类别可分性判 据,这些判据应能反映各类在特征空 间中的分布情况,应能刻画各特征分 量在分类识别中的重要性或贡献。
在实际问题中,常常不容易找到那些 最重要的特征,或受条件限制不能对 它们进行测量,这就使特征选择和提 取的任务复杂化而成为构造模式识别 系统最困难的任务之一。
特征提取和选择的基本任务是如何从 许多特征中找出那些最易得且有效的 特征,从而实现特征空间维数的压缩.
1 概述
模式特征的提取与选择
虽然特征的提取和选择在模式识别中 占有重要地位,但迄今没有一般方法,大 多数的方法都是面向问题的.对于不同 的模式识别问题可以 有不同的特征提
基于几何距离的可分性判据
J1=Tr[Sw-1SB] J2=Tr[SB]/Tr[Sw] J3=Tr[Sw-1ST] J4=|ST|/|SW|=|Sw-1ST|
上述各种判据存在关联性,其中一些 判据如J1,J4具有非奇异线性变换不变 性.它们本质相似,但性能可能不同.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
模式识别特征选择与提取中国矿业大学计算机科学与技术学院电子信息科学系班级:信科11-1班,学号:08113545,姓名:褚钰博联系方法(QQ或手机):390345438,e-mail:****************日期:2014 年06月10日摘要实际问题中常常需要维数约简,如人脸识别、图像检索等。
而特征选择和特征提取是两种最常用的维数约简方法。
特征选择是从某些事物中提取出本质性的功能、应用、优势等,而特征提取是对特征空间进行变换,将原始特征空间映射到低维空间中。
本文是对主成分分析和线性判别分析。
关键词:特征选择,特征提取,主成分分析,线性判别分析1.引言模式识别的主要任务是利用从样本中提取的特征,并将样本划分为相应的模式类别,获得好的分类性能。
而分类方法与分类器设计,都是在d(变量统一用斜体)维特征空间已经确定的前提下进行的。
因此讨论的分类器设计问题是一个选择什么准则、使用什么方法,将已确定的d维特征空间划分成决策域的问题。
对分类器设计方法的研究固然重要,但如何确定合适的特征空间是设计模式识别系统另一个十分重要,甚至更为关键的问题。
如果所选用的特征空间能使同类物体分布具有紧致性,即各类样本能分布在该特征空间中彼此分割开的区域内,这就为分类器设计成功提供良好的基础。
反之,如果不同类别的样本在该特征空间中混杂在一起,再好的设计方法也无法提高分类器的准确性。
本文要讨论的问题就是特征空间如何设计的问题。
基于主成分分析的特征选择算法的思想是建立在这样的基础上的:主成分分析方法将原始特征通过线性变换映射到新的低维空间时,获得的主成分是去了新的物理意义,难以理解,并且主成分是所有原始特征的线性组合。
所以将主成分分析与特征选择相结合,设计多种相似性度量准则,通过找到与主成分相关的关键特征或者删除冗余、不相关以及没有意义的特征,将主成分又重新映射到原始空间,来理解成主成分的实际意义。
基于线性判别分析的高维特征选择将单个特征的Fisher准则与其他特征选择算法相结合,分层消除不相关特征与冗余特征。
不相关特征滤波器按照每个特征的Fisher评价值进行特征排序,来去除噪音和不相关特征。
通过对高维数据特征关联性的分析,冗余特征滤波器选用冗余度量方法和基于相关性的快速过滤器算法。
分别在不同情境下进行数据分类实验,验证其性能。
2.原理分析对一原始特征来说,特征选择的方案很多,从N 维特征种选择出M 个特征共有()!!!M N N C M N M =-中选法,其中哪一种方案最佳,则需要有一个原则来进行指导。
我们进行特征选择和特征提取的最终目的还是要进行识别,因此应该是以对识别最有利原则,这样的原则我们称为是类别的可分性判据。
用这样的可分性判据可以度量当前特征维数下类别样本的可分性。
可分性越大,对识别越有利,可分性越小,对识别越不利。
人们对的特征的可分性判据研究很多下面几种常用的判据,我们需要根据实际问题,从中选择出一种。
一般来说,我们希望可分性判据满足以下几个条件:1. 与识别的错误率由直接的联系,当判据取最大值时,识别的错误率最小;2. 当特征独立时有可加性,即:)(),,,(121K NK ij N ij x J x x x J ∑==ij J 是第i 类和第j 类的可分性判据,ij J 越大,两类的可分程度越大,()12,,,N x x x 为N 维特征;3. 应具有某种距离的特点:0ij J >,当i j ≠时; 0ij J =,当i j =时;ij ji J J =;4. 单调性,加入新的特征后,判据不减小:()()12121,,,,,,,ij N ij N N J x x x J x x x x +≤。
但是遗憾的是现在所经常使用的各种判据很难满足上述全部条件,只能满足一个或几个条件。
特征提取又称为特征变换,最常采用的特征变换是线性变换,即若DR x ∈是D 维原始特征,变换后的d 维新特征dR y ∈为x W y T= , 其中,W 是d ⨯D 维矩阵,称作变换阵。
特征提取就是根据训练样本求适当的W ,使得某种特征变换准则最优。
主成分分析方法的出发点是从一组特征中计算出一组按重要性从大到小排序的新特征,他们是原有特征的线性组合,并且相互之间是不相关的。
记p x x x ,,,21 为p 个原始特征,设新特征ξ,i=1, ,p 是这些原始特征的线性组合 x x T i j pj ij i ααξ==∑=1,为了统一i ξ的尺度,要求线性组合的模为1,即1=i T i αα,写成矩阵形式是 x A T=ξ,其中,ξ是由新特征i ξ组成的向量,A 是特征变换矩阵。
要求解的是最优的正交变换A ,它使新特征i ξ的方差达到极值。
3.理论证明或说明特征选择的基本框图为:一个典型的特征选择算法通常包括四个人基本步骤:1.子集产生,这是一个搜索过程,通过一定的搜索策略产生候选的特征子集。
2.子集评价,每一个候选的特征子集都根据一定的评价准则得到,并与先前的最优特征子集进行比较。
3.终止条件,算法结束所需要满足的条件,它与子集的产生过程和评价准则的选用有关。
4.结果验证,就是根据一定的先验知识或通过合成现实数据集的测试来证明所选择的特征子集的性能。
基于特征提取主成分分析变换矩阵的一般过程:训练数据全集4.实现方法或步骤流程特征选择顺序前进法每次从未入选的特征中选择一个特征,使得它与已入选的特征组合到一起所得到的可分性判据最大,直到特征数增加到M 为止。
用k X 表示在第k 步时的特征集合,搜索算法如下:1) 开始时,0X =∅,从N 个特征中选择一个()i J x 最大的特征,加入已选特征集,{}1i X x =; 2) 在第k 步,k X 中包含已经选择的k 个特征,对未入选的N k -个特征计算,{}()kjJ X x ,其中1,2,,j N k =-,并且按照由大到小排序,将可分性判据最大的特征l x 加入k X ,{}1k kl X X x +=;3) 直到所选的特征数等于M 为止。
特征抽取的方法—基于离散K-L 变换(DKLT)的特征抽取: 设原始特征为N 为矢量()12,,,TN x x x =X ,均值矢量[]E =m X ,相关矩阵T E ⎡⎤=⎣⎦X R XX ,协方差矩阵()()TE ⎡⎤=--⎣⎦X C X m X m 。
我们可以对X 作如下的标准正交变换,将其变为矢量()12,,,TN y y y =Y :12T T T N ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦T T TY =T X X TY 的每个分量:T i i y =T X ,其中T 为一个N N ⨯的标准正交矩阵,i T 为其第i 个列矢量,1,0,T i j i ji j=⎧=⎨≠⎩T T 。
也就是说Y 的每个分量是X 每一个分量的线性组合。
同样X 可以表示为:()()112121NT N i i i N y y y y -=⎡⎤⎢⎥⎢⎥====⎢⎥⎢⎥⎢⎥⎣⎦∑X T Y TY T T T T我们要进行特征提取,也就是要用Y 的M 项来代替X ,这种代替必然带来误差,下面我们来对这个误差进行估计:令:1ˆMi ii y ==∑X T ,1M N ≤<,引入的均方误差为: ()()()2211N NTTi i i i M i M e M E E y E y y =+=+⎡⎤⎡⎤⎡⎤=--==⎣⎦⎣⎦⎢⎥⎣⎦∑∑X XX X 11NNTTTii ii i M i M E =+=+⎡⎤==⎣⎦∑∑XTXX T T RT这又变成一个优化问题,我们希望寻找到一个标准正交矩阵T ,使得()2e M 最小,因此可以去这样的准则函数:()111NNT T ii iiii M i M J λ=+=+=--∑∑XT RT T T第一项保证均方误差最小,第二项保证T 为标准正交矩阵,i λ为一待定常数。
()i i iJλ∂=-=∂X R I T 0T ,1,,i M N =+即:i i i λ=X R T T ,很明显i λ为相关矩阵X R 的特征值,i T 为对应于i λ的特征矢量,由于X R 是一个实对称矩阵,所以12,,.N T T T 相互正交,T 为一个正交矩阵。
均方无差:()2111NN NT T ii ii iii M i M i M e M λλ=+=+=+===∑∑∑XT RT T T根据矩阵论,有这样的结论:一个N N ⨯的正定实对称矩阵有N 个特征值和特征矢量,这些特征矢量之间是正交的。
相关矩阵X R 就是一个实对称矩阵,当训练样本足够多时,也可以满足正定性,根据上式我们知道,当要从N 维特征中提取出M 维特征时,我们只需要统计出特征相关矩阵X R ,然后计算其特征值和特征矢量,选择对应特征值最大的前M 个特征矢量作成一个N M ⨯特征变换矩阵T ,就可以完成特征提取。
步骤如下:1、 利用训练样本集合估计出相关矩阵T E ⎡⎤=⎣⎦X R XX ;2、 计算X R 的特征值,并由大到小排序:12N λλλ≥≥≥,以及相应的特征矢量:12,,,N T T T ;3、 选择前M 个特征矢量作成一个变换矩阵[]12M =T T T T ;4、 在训练和识别时,每一个输入的N 维特征矢量X 可以转换为M 维的新特征矢量:TY =T X 。
这种方法是利用相关矩阵X R 进行变换,同样也可以利用协方差矩阵X C 进行变换,还可以利用样本的散度矩阵W S ,B S ,T S 或者1W B -S S 进行变换。
过程都是一样的,需要计算特征值和特征向量,选择最大的M 个特征值对应的特征矢量作出变换矩阵。
5.实验设计和结果分析基于特征相关性的特征选择算法选择c 均值聚类算法来去除冗余。
C 均值算法的基本思想即是通过迭代寻找c 个聚类的一种划分方案,使得用这c 个聚类的均值来代表相应各类样本时所得到的总体误差最小。
C 均值算法的基础是最小误差平方和准则。
若i N 是第i 聚类i Γ中的样本数目,i m 是这些样本的均值,即∑Γ∈=iy ii y N m 1把iΓ中的各样本y 与均值i m 间的误差平方和对所有类相加后为21e ∑∑=Γ∈-=ci y i im y Je J 是误差平方和聚类准则,它是样本集y 和类别集Ω的函数。
C 均值算法的步骤:1.选择初始划分,并计算每个聚类的均值以及误差平方和;2.选择一个备选样本y ,设y i Γ∈;X1the first results of kmeansX2X 3X1X2X 31.无论在聚类时,初始均值如何选取,在程序结果中总能得到相同的分类结果,同时e J 的结果相差很小。
2.当各聚类设定的初始均值不同时,程序结果经过的步骤不同。
3.e J 是随着聚类数目的增加而单调的减少的,当聚类数目等于样本数时e J =0,即每个样本自己成一类。