模式识别特征的选择和提取

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1. 模式最优表示特征的提取 假定有一n维向量x,希望能用m(< n) 个向量的线性组合来近似x,这m个向量来自 一组标准正交基{uj,j = 1,2,…,n}。 即把x近似表示为前m个基的组合:
~ x
= y1u1 + y2u2 + … + ymum
式中 yj = ujT x
写成矩阵形式, ~ x = Um y ( n × m,m × 1 ) → n × 1 y = UmT x ( m × n,n × 1 ) → m × 1
模式特征的产生过程一般包括以下步骤:
1.原始特征的形成:用仪表或传感器测量 出来的一些特征量,或通过计算得到的一些 特征(对波形和图象),称为原始特征、原 始测量或一次特征。
2.特征提取:原始特征的数量可能很 大,需要通过变换(映射)把高维特征空间 降到低维空间,这时的特征叫二次特征,它 们一般是原始特征的某种组合。 通过变换A: X Y,
下面的分析说明确实是这样。假定e是 Gi的标准特征向量,那么相应特征值λ 可以 表示为 c 1 T T T ( e R e ( 1 e R k e) λ = e Gie = i
c
k 1 k i
由于λ max≤1和相关矩阵的半正定性质, ∴上式括号中每一个二次项的特征值在0~1 之间,∴ 0≤λ ≤1。 而且λ 接近于1时要求eTRie→1,而 eTRke(k≠i)却→0,
和前面一样,令{uj,j = 1,2,…,n} 是观测空间的标准正交基。另x是任一观测 向量,x~是它的截尾表示形式, x~ = y1u1 + y2u2 + … + ymum 对于第i类,我们选择一组uj,它能使 第i类的均方误差最小, εi = Ei[|x-x~|2] =



| x x | p( x | i )dx
一旦特征向量选好后,则特征变换由 下式确定: ← ej1T → y = Tx = ← ej2T → STx, : ← ej1T →
其中S是满足STQS = I的矩阵。
* 2. C类时的情况
现在考虑将模式分为C类时的特征提取问
题。
模式原来是用n维测量空间的向量x来表 示的。每类的相关矩阵为Ri = Ei[xxT] 假定各个相关矩阵的最大特征值λ max≤1, 这并不失一般性,可以通过调整线性空间的 比例来实现。 又由于相关矩阵是半正定的,∴各Ri的 特征值在0~1之间。
表示模式的特征和用于分类的特征的不同
(1) 均值大小的影响 若均值较大,均值就会起大作用,特征在 均值方向。 当两类问题的均值相差较大时,可以分类; 但若均值差不多,则不会有好的效果。
m ∵ R=Σ+mmT
(2)也可以使用协方差矩阵,以均值 为参考点,相对于均值。 (3)最好的表示特征不一定是最好的 分类特征。 (3)有时可将坐标系移到一个类的均 值处,这时相关矩阵的最大特征值的特征向 量将沿两个均值的方向排列。
特征提取可以看作是在减少维数的同时, 又能代表、表示原观测向量。 模式识别的任务是判别、分类。维数减少、 一般错误率要增加,要限制在一定范围内。
7.2 基于特征向量分析的特征提取方法
这一节讨论基于相关矩阵或协方差矩阵 的特征向量的特征抽取方法。这一方法和统 计上的主因子分析以及随机过程中的K-L (Karhunen-Loeve)变换(展开)有密切关 系。
由于相关矩阵的R1’ 、R2’是半正定的, 它们的特征值是非负的, ∴ 0≤λ ≤1 这样,R1’的大特征值正好是R2’的小特 征值, R1’的小特征值正好是R2’的大特征值,
这个关系如下图: R1’ λ 1 λ 2 ︰ λ n-1 λ n e1 e2 ︰ e n-1 en 1-λ 1-λ ︰ 1-λ 1-λ
~ 2
(*)
而同时使其它类的均方误差最大。 εk = Ek [|x-x~|2] =



| x x | p( x | k )dx
~ 2
(k = 1,2,…,c,k≠i) (**) 单独使εi最小,而不管上式的条件已在 前面讨论过。 若同时也满足(**)式的条件,将使 得所选择的基能最优的表示第i类,但不能 最优的表示其它类。 由于一般不能同时使εi最小,而εk最大, 下面引入另外一个相关的准则。
*7.3 多类问题的特征提取
下面介绍的方法是Fukunaga和Koontz在 1970年提出的。 出发点是要同时考虑所有的类。
1. 两类时的情况
令R1和R2分别是两类观测向量的相关矩 阵。即 Ri = Ei[xxT] ,i = 1,2 另 Q = R1 + R2 令S是一线性变换,使得 STQS = ST R1S + ST R2S = I (R1’ + R2’ = I) (*)
u
n
பைடு நூலகம்
T j
Ru j =
j m 1
u
n
T j
j u j=
j m 1

n
j
∴为了使ε最小,特征向量 um+1,…,un 必须是对应最小特征值的,而近似x时所用的 m个特征向量是对应m个最大特征值的。
上面推导出的特征还有其它意义上的 最优性质。 一个分布的熵定义为 H = -E[㏑p(y)] 粗略地说,当分布很平、延伸很广时,熵最 大。如果x是零均值的高斯分布,那么可以 证明所选择的特征向量具有最大熵。 这些特征向量沿最大方差方向,这样 的方向是最随机的,最不确定的,这些方向 应保留下来作为特征。对最不确定的事,若 有信息(测量),最有用。
其中:
y= y1 ↑ ↑ ↑ Um = u1 u2 … um ↓ ↓ ↓
ym
由于{uj,j = 1,2,…,n}是标准正交 基,用 ~ x 表示x时的误差(残差)为 ε= x-
~ y ju j x = j m 1
n
其中,yj = ujT x , j > m 问题是找一组基{uj },使得均方误差 2] 最小。 ε = E[|ε|2]= E[|x - |~ x 这时的yi 就是从x导出的特征,而 y = umT x就表示特征变换(由n维→m维)。
(*)
其中R是自相关矩阵
(*)式的误差化为:
ε=
j m 1
u
n
T j
Ru j
要找一组基,使ε最小,同时要满足: ujT uj = 1,j = m+1, …, n. 把约束ujT uj = 1用拉格朗日乘子(法)写 入误差中,有
ε
’=
j m 1
u
n
T j
Ru+j
j m1
(1 u
j m1 j m1
εk = Ek
[|x-x~|2]
=
~ 2 | x x | p( x | k )dx (k = 1,2,…,c, k≠i) (**)

最大k(k≠i,k=1,2,…,c)和最小 i的准则可以写成下面的组合形式,并用类 数标准化。
c 1 Ci= ( i (n m k ) c k 1 k i
根据误差公式和基是标准正交的条件, ε = E[εT ε]
= E[( y i u i )( y j u j)] = E[ y j ]
T n
n
n
2
i m 1
j m 1
j m 1
如果把yj2 写成 yj2 =(yj)· (yj)=(ujTx)(xTuj) 则 E[yj2]=ujT E[xxT]uj =ujTRuj ,
例 三维观测向量的特征提取 有一三维观测向量,其相关矩阵为 3 -1 0 -1 3 0 0 0 3
R=
它的特征值和特征向量为 λ1 = 4, λ2 = 3, λ3 = 2
1/ e1 = -1/ 0
2 2
0 e2 = 0 1
1/ e3 = 1 / 0
2 2
要选一个特征,应选e1方向,均方误差 是λ2 +λ3 = 5, 要选两个特征,应选e1 、e2方向,均方 误差是λ3 = 2.
特征的种类有物理的、结构的、数学的。物 理的、结构的特征,人的感觉器官容易感受, 数学的特征,如均值、相关系数、协方差矩阵 的特征值和特征向量等。 物理和结构特征和所处理的具体问题有关, 在解决实际问题时可以依据具体问题而定。
这一节研究一般的特征提取和选择的方法。
2. 几个术语的含义
在一些书籍和文献中,在不完全相同的 意义上使用“特征提取”和“特征选择”的 术语。例如“特征提取”,有的专指特征的 形成过程,有的指特征的形成、经选择或变 换后得到有效特征的过程。 为了方便以后的讨论,我们把特征提取、 特征选择的含义明确一下。
测量空间 特征空间
需要尽可能多地保留对分类和表示有利的信 息。 好处 :减少计算量; 在样本少时,便 于估计密度函数;提高分类器设计的性能。
3.特征选择:从得到的一组特征中,挑 选最有效的特征以进一步减少特征空间的维 数,得到它的一个有效子集。
特征的提取和选择是人类的一项基本 智能活动,从相关和不相关信息中找出主要 因素。 例如在细胞识别中,用变换的方法→较 少的特征,用选择的方法→专家意见,或用 数学方法进行筛选,从n个→m个。 但“提取”和“选择”不是截然分开的。 具体指什么要从上下文去理解。 特征选择时,前m个最好的不一定组合 后也是最好的。
1 2
重 要 性 减 小
R2’
n-1 n
重要性减小
对类1是最好的表示方向,对类2是最坏 的,反之亦然。 如何来选特征呢?有两种可能的方法。 1.每类各选m/2个最大特征值所对应的 特征向量,当m是奇数时,再选一个不管哪类 的最大特征值所对应的特征向量。 2.从两类的特征值中,不管哪一类,选 最大的m个特征值所对应的特征向量。 一般地说,这两种方法谁好谁坏和具体 问题有关。
把i = j m1 和(n-m)-k的表达 式代入,有 Ci = u G u
T
n T j m 1 j i j
u j Rk u j
n
c 1 式中,Gi= c ( Ri ( I Rk ) k 1 k i
(*)
上式的准则在形式上和7.2节讨论的一
样。 ∴为了选取m个特征向量ui来表示x~,以 使Ci最小,这时的特征向量应是Gi 的最大的 m个特征值所对应的特征向量。
其中
↑ ↑ ↑ 1/ S = v1 v2 … v n ↓ ↓ ↓
μ1
1/ μ2 … 1/
μn
vi和ui分别为Q的特征向量和特征值。
一般地说,S并不把R1和R2对角化,但 通过S的线性变换,它把观测向量x变为: x’ = STx 变换后的相关矩阵为 Ri’ = STRiS 由(*)式有 R1’ + R2’ = I
和7.2节一样,可以表示 n εk = u j T Rk u j ,k=1,2,…,c
j m 1
由于Ri是半正定的,且λ max≤1, ∴ εk的大小为下式限定: 0≤ εk≤n-m, k =1,2,…,c 这样,使(**)式最大等价于使下式 最小(k≠i) n n T T T u u u R u (n-m)-εk = j j j k j = u j ( I Rk )u j
这样,Gi的相应于特征值接近1的特征 向量对应着i类最重要的特征。 当e = 2 时,(*)式变为 G1 + G2 = I 这和两类时的情况相似,G1 和 G2 的 特征向量相同,其特征值间的关系和变换后 的矩阵R1’ 、R2’时的一样。
STQS = ST R1S + ST R2S = I
(**)
现在考虑在变换后新坐标系下的特征。 首先,注意到R1’和R2’的特征向量是相同的。 ∵假设e是R1’的一个特征向量,相应的 特征值是λ, 由(**)式: ’ ’= I R + R 2 R2’ e = (I-R1’)e = e-λ 1 e =(1λ )e ∴ e也是R2’的特征向量,相应的特征值 是(1-λ)
第七章 特征的选择和提取
7.1 引言
1. 特征的维数和特征的“好坏” 以前讨论分类器设计时,都假定模式的特征 向量已经提取出来了(有多少特征确定了)。 特征的多少(维数)、”好坏” 对分类器 的设计和性能有很大的影响。 好的特征容易把类分开,或表示时误差较小。
特征选择和提取的任务是如何从许多特征中 找出那些最有效的特征,把高维特征空间压缩 到低维特征空间。
j
n
T j
uj)
使ε
’取极值的必要条件是: ε’
j m 1
u j Ru j
T
n
+
j m1
j (1 u j u j )
T
n
ε’ u j
=2(Ruj- juj)=0,
j = m+1,…,n
上式说明uj必须是R的特征向量。 (Re =λe) 这样,ε=
j m 1
相关文档
最新文档