第6章 模式特征选择
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
T
n
i 为Lagrange乘子。
对 i 求导数并令其为零可得:
X i
ii , i 1, 2,..., n
( X i I )i 0
这个表达式说明什么?
说明 i 是矩阵 X 的本征向量,而 i 是这 个矩阵相应的第i个本征值。 习惯上用 表示本征值,所以用 i 表示 i 可得:
矩阵 由 n 个线性独立的列向量 i 组成,所以:
0ห้องสมุดไป่ตู้
因而,矩阵 的各列构成了包含 X 的n维空间, 的各列的向量就是这个空间的一个基组。 基组(基): 定义:在线性空间V中,如果存在n个元素 1,2 ,,n , 满足: (1) 1,2 ,,n , 线性无关; (2)V中任一元素 总可以由 1,2 ,,n , 线性表示,那么,1,2 ,,n , 就称为V的一个基组。
n
i m 1
T i X i
n
2. 求最佳 i
在iTi 1的条件下,找出使 2 m 最小的 i 。 用Lagrange乘数法求条件极值。令:
L(i ) (m)
2 i m 1
(
i
n
T i
i 1)
T
i m 1
[i X i i (i i 1)]
i=n: n (1) (2) n
yn ( n ) n
相加,有
y11 (1) y22 (1) ynn (1) y (2) y (2) y (2) 2 2 n n 11 y ( n ) y ( n ) y ( n ) 2 2 n n 11
并写成向量形式
x (t ) ( x(1), x(2), , x( n))T j (t ) ( j (1), j (2), , j ( n))T
则得式(6-1)的n项近似表达式,写成离散形式:
n x a j j A
j 1
A (a1, a2 ,, an )T
2 E yi bi i m 1 n
对于选择的每一个 bi 和 i ,可以得到一个 2 m 求使 2 m 取极小值的最佳的 bi 和 i 值. 1. 求最佳 bi 令
2 (m) 0 bi
2 E yi bi 2 E yi bi 0 bi
于是有: 均方误差写成:
2
bi E yi iT E X
2 E [( y b ) i i ] n
(m)
表明:对于不保留的 那些分量,用他们的 平均值来代替,就能 得到最佳的 bi 值
i m 1
i m 1
2 E [( X E ( X )) ] i i T T
第6章
概述
模式特征的提取和选择
离散的K-L变换 特征提取举例
概述
一. 特征提取和选择 1. 模式特征提取 要进行模式识别,首先要对表征模式的各种 特征进行测量,得到其量化值,然后把模式看 成是向量空间的一个向量,即
X ( x1 , x2 ,, xn )
T
获得特征原始测量的过程称为特征提取。
举例:设二维样本 X 1 (2,2)T X 2 (1,1)T
X 3 (1,1)T
X 4 (2,2)T
用K-L变换把特征空间降到一维。 1 n 解:根据协方差矩阵公式 X ( X i )( X i )T n i 1 先求均值向量 1 n T
1 T X Xi Xi 4 i 1
假定的各列形成一个正交归一集,即:
1, i j i j 0, i j
T
如果满足上述条件,则 Y 的各个分量可由
yi iT X , i 1, 2,..., n
给出,得到 Y {y1, y2 ,, yn} ,是随机向量 X 的一 个正交归一变换。 假定我们只保留 Y {y1 , y2 ,, yn } 的一个子集 Y ' {y1' , y2' ,, ym'} ,用它们估计 X 。 我们可以用预先选定的常数来代替不保留的 的那些分量,则估计式为:
y b
i i
n
i
由于 X 和 X (m) 都是随机向量,用 X (m) 的 均方误差作为量度 m 个特征的子集有效性的 判据,有:
(m) E{ X (m) } E{( X (m)) T (X (m))}
2 2
n n T E yi bi y j b j i j i m1 j m1
j 1
(6-1)
式中,a j 为展开式的系数。
若将连续随机函数 x(t ) 和正交函数 j (t ) 在 [T1 , T2 ] 内等间隔取n个离散点,即
x(t ) {x(1), x(2),, x(n)} j (t ) { j (1), j (2),, j (n)}
6.2
离散的K-L变换
X ( x1 , x2 ,, xn )T ,从n维特征选取m维特征,
去掉的(n-m)维特征不一定就是无用的信息。如 何在信息损失最小的情况下选取特征呢? 离散的K-L变换又称主成分分析,是一种基于 目标统计特性的最佳正交变换,被广泛应用于 数据压缩,特征降维等方面。离散的K-L变换具 有很好的性质: (1)可以使变换后所生成的新分量正交或不相关。 (2)用较少的新分量来表示原特征向量时,可以 达到均方误差最小。
当用一定数量的样本设计Bayes分类器时, 随着特征数量的增加要求样本数急剧增加,这样 才能保证一定的错误率。 大量增加样本在实际问题中是不合适的。由 于样本数是有限的,所以为了保证一定的错误率, 就不能任意增加特征数。
那么怎么办好呢? 在很多特征中选择一些更有效的特征来压缩模式 特征向量的维数。
2. 特征选择 从一组模式特征中选出一些最有效和最具 代表性的特征,这个过程称为特征选择。 特征提取和选择的基本任务:研究如何从众多特征 中找出那些对分类识别最有效的特征。 3. 模式特征抽取和选择的意义
提取和选择的模式特征的优劣,对分类器的 设计和性能有重要影响,直接影响分类器的分 类识别效果。因此,特征提取和选择是模式识 别中的一个关键问题,是模式识别工作的三大 任务之一。
ˆ m y X i i
i 1
m
i m 1
b
n
i i
式中 bi 是待选定的常数。 如果只用 m 个分量,则误差为:
ˆ (m) X (m) X X
yii yii
i 1 i 1 n m i m 1
b
n
i i
i m 1
(m)
2 i m 1
i X i
T
n
i m 1
i ii
T
n
i m 1
n
T
i i
i
i m 1
n
i
表明:要使 2 m 小,不保留的 i 就要小
结论: 以矩阵 X 的特征向量作为坐标轴来展开 X 时,取m个 i , i 1,2,, m 来逼近 X 时,其均 n 方误差为 i
将连续随机函数 x(t ), T1 t T2 用已知的正交函数 集 { j (t ), j 1, 2,} 的线性组合展开,有:
x(t ) a11 (t ) a22 (t ) a j j (t ) a j j (t ), T1 t T2
1 (1) 2 (1) n (1) y1 Y (2) (2) (2) y 2 n 1 2 1 (n) 2 (n) n (n) yn
y11 (1) y22 (1) ynn (1) y (2) y (2) y (2) 2 2 n n 1 1 y11 (n) y22 (n) ynn (n)
4. 模式特征提取和选择中的两个问题
困难性
迄今为止,所提出的模式特征提取方法都是面 向问题的,也就是说,不同的模式识别问题(如 字符识别,语音识别)可以有不同的特征提取和 选择方法,即使对同一模式识别问题,也可能用 不同的方法。因此,找到特征提取和选择的一般 方法是比较困难的。 由于不是在任何情况下都能容易地提取到重要 的特征,或由于条件限制而不能充分提取特征, 而使得特征的抽取和选择有时变得很困难。
离散的K-L变换
特征选择:可看作是从原始的 n 维空间 N 到 m 维特征空间 M 的一个映射。 m n 通常用一个 n 维随机向量 X 来表示一个模式。 若
g:N M
X | Y g X
则 Y 就是一个选择出来的特征向量,这里 X N , Y M , g 是从N 到 M 的映射。 对于映射 g 的要求是:若用 Y 来恢复原始模式 时,不应使模式产生明显的畸变。
特征的数量问题 当用一组特征已经无法区分模式类别时,自然 会想到增加新的特征,那么我们会问,特征数量 是不是越多越好呢?
当特征数量不多时,增加特征数量,问题不大。
但是,当特征数量比较大,达到一定的数量之后, 增加特征数量反而会使分类器的性能变坏。
产生这个问题的基本原因是用来设计分类器的样 本数量是有限的。 那么可不可以在增加特征的同时,也增加样本 数量呢?
n
i m 1
n
n
E[iT ( X E ( X ))iT ( X E ( X )]
T
i m 1
T E [ ( X E ( X ))( X E ( X ) i ] i
i m 1
T T E [( X E ( X ))( X E ( X ) ]i i
为nxn矩阵
1 (1) 2 (1) n (1) (2) (2) (2) 2 n 1 , 2 ,..., n 1 1 (n) 2 (n) n (n)
式中,每列为正交函数集中某一个函数在n个采样 点上的数值,这样 实际上是由 j 向量组成的正 交变换矩阵。 如何确定正交向量集 { j }
i m 1
所以,应该把那些本征值大的对应特征保留下来。 如果将本征值从大到小顺序编号 1 2 ... n 0 则它可作为特征选择的依据。
K-L变换实现特征选择的方法 (1)求协方差矩阵、本征值,本征向量 (2)将协方差矩阵的本征值按大小排序,根据 降维需要选取投影坐标系的维数。
是 n n 方阵, i 是 n 维列向量。
Y y1 , y2 ,..., yn
T
X yii Y
i 1
n
i=1:
1 (1) i=2: 2 (1) (2) (2) 2 1 y y1 2 ( n ) 2 1 (n)
设 X 是一个 n 维的随机向量,则可以用下式展 n 开为:
X yii Y
i 1
式中,
1 (1) 2 (1) n (1) (2) (2) (2) 2 n 1 , 2 ,..., n 1 1 (n) 2 (n) n (n)
n
i 为Lagrange乘子。
对 i 求导数并令其为零可得:
X i
ii , i 1, 2,..., n
( X i I )i 0
这个表达式说明什么?
说明 i 是矩阵 X 的本征向量,而 i 是这 个矩阵相应的第i个本征值。 习惯上用 表示本征值,所以用 i 表示 i 可得:
矩阵 由 n 个线性独立的列向量 i 组成,所以:
0ห้องสมุดไป่ตู้
因而,矩阵 的各列构成了包含 X 的n维空间, 的各列的向量就是这个空间的一个基组。 基组(基): 定义:在线性空间V中,如果存在n个元素 1,2 ,,n , 满足: (1) 1,2 ,,n , 线性无关; (2)V中任一元素 总可以由 1,2 ,,n , 线性表示,那么,1,2 ,,n , 就称为V的一个基组。
n
i m 1
T i X i
n
2. 求最佳 i
在iTi 1的条件下,找出使 2 m 最小的 i 。 用Lagrange乘数法求条件极值。令:
L(i ) (m)
2 i m 1
(
i
n
T i
i 1)
T
i m 1
[i X i i (i i 1)]
i=n: n (1) (2) n
yn ( n ) n
相加,有
y11 (1) y22 (1) ynn (1) y (2) y (2) y (2) 2 2 n n 11 y ( n ) y ( n ) y ( n ) 2 2 n n 11
并写成向量形式
x (t ) ( x(1), x(2), , x( n))T j (t ) ( j (1), j (2), , j ( n))T
则得式(6-1)的n项近似表达式,写成离散形式:
n x a j j A
j 1
A (a1, a2 ,, an )T
2 E yi bi i m 1 n
对于选择的每一个 bi 和 i ,可以得到一个 2 m 求使 2 m 取极小值的最佳的 bi 和 i 值. 1. 求最佳 bi 令
2 (m) 0 bi
2 E yi bi 2 E yi bi 0 bi
于是有: 均方误差写成:
2
bi E yi iT E X
2 E [( y b ) i i ] n
(m)
表明:对于不保留的 那些分量,用他们的 平均值来代替,就能 得到最佳的 bi 值
i m 1
i m 1
2 E [( X E ( X )) ] i i T T
第6章
概述
模式特征的提取和选择
离散的K-L变换 特征提取举例
概述
一. 特征提取和选择 1. 模式特征提取 要进行模式识别,首先要对表征模式的各种 特征进行测量,得到其量化值,然后把模式看 成是向量空间的一个向量,即
X ( x1 , x2 ,, xn )
T
获得特征原始测量的过程称为特征提取。
举例:设二维样本 X 1 (2,2)T X 2 (1,1)T
X 3 (1,1)T
X 4 (2,2)T
用K-L变换把特征空间降到一维。 1 n 解:根据协方差矩阵公式 X ( X i )( X i )T n i 1 先求均值向量 1 n T
1 T X Xi Xi 4 i 1
假定的各列形成一个正交归一集,即:
1, i j i j 0, i j
T
如果满足上述条件,则 Y 的各个分量可由
yi iT X , i 1, 2,..., n
给出,得到 Y {y1, y2 ,, yn} ,是随机向量 X 的一 个正交归一变换。 假定我们只保留 Y {y1 , y2 ,, yn } 的一个子集 Y ' {y1' , y2' ,, ym'} ,用它们估计 X 。 我们可以用预先选定的常数来代替不保留的 的那些分量,则估计式为:
y b
i i
n
i
由于 X 和 X (m) 都是随机向量,用 X (m) 的 均方误差作为量度 m 个特征的子集有效性的 判据,有:
(m) E{ X (m) } E{( X (m)) T (X (m))}
2 2
n n T E yi bi y j b j i j i m1 j m1
j 1
(6-1)
式中,a j 为展开式的系数。
若将连续随机函数 x(t ) 和正交函数 j (t ) 在 [T1 , T2 ] 内等间隔取n个离散点,即
x(t ) {x(1), x(2),, x(n)} j (t ) { j (1), j (2),, j (n)}
6.2
离散的K-L变换
X ( x1 , x2 ,, xn )T ,从n维特征选取m维特征,
去掉的(n-m)维特征不一定就是无用的信息。如 何在信息损失最小的情况下选取特征呢? 离散的K-L变换又称主成分分析,是一种基于 目标统计特性的最佳正交变换,被广泛应用于 数据压缩,特征降维等方面。离散的K-L变换具 有很好的性质: (1)可以使变换后所生成的新分量正交或不相关。 (2)用较少的新分量来表示原特征向量时,可以 达到均方误差最小。
当用一定数量的样本设计Bayes分类器时, 随着特征数量的增加要求样本数急剧增加,这样 才能保证一定的错误率。 大量增加样本在实际问题中是不合适的。由 于样本数是有限的,所以为了保证一定的错误率, 就不能任意增加特征数。
那么怎么办好呢? 在很多特征中选择一些更有效的特征来压缩模式 特征向量的维数。
2. 特征选择 从一组模式特征中选出一些最有效和最具 代表性的特征,这个过程称为特征选择。 特征提取和选择的基本任务:研究如何从众多特征 中找出那些对分类识别最有效的特征。 3. 模式特征抽取和选择的意义
提取和选择的模式特征的优劣,对分类器的 设计和性能有重要影响,直接影响分类器的分 类识别效果。因此,特征提取和选择是模式识 别中的一个关键问题,是模式识别工作的三大 任务之一。
ˆ m y X i i
i 1
m
i m 1
b
n
i i
式中 bi 是待选定的常数。 如果只用 m 个分量,则误差为:
ˆ (m) X (m) X X
yii yii
i 1 i 1 n m i m 1
b
n
i i
i m 1
(m)
2 i m 1
i X i
T
n
i m 1
i ii
T
n
i m 1
n
T
i i
i
i m 1
n
i
表明:要使 2 m 小,不保留的 i 就要小
结论: 以矩阵 X 的特征向量作为坐标轴来展开 X 时,取m个 i , i 1,2,, m 来逼近 X 时,其均 n 方误差为 i
将连续随机函数 x(t ), T1 t T2 用已知的正交函数 集 { j (t ), j 1, 2,} 的线性组合展开,有:
x(t ) a11 (t ) a22 (t ) a j j (t ) a j j (t ), T1 t T2
1 (1) 2 (1) n (1) y1 Y (2) (2) (2) y 2 n 1 2 1 (n) 2 (n) n (n) yn
y11 (1) y22 (1) ynn (1) y (2) y (2) y (2) 2 2 n n 1 1 y11 (n) y22 (n) ynn (n)
4. 模式特征提取和选择中的两个问题
困难性
迄今为止,所提出的模式特征提取方法都是面 向问题的,也就是说,不同的模式识别问题(如 字符识别,语音识别)可以有不同的特征提取和 选择方法,即使对同一模式识别问题,也可能用 不同的方法。因此,找到特征提取和选择的一般 方法是比较困难的。 由于不是在任何情况下都能容易地提取到重要 的特征,或由于条件限制而不能充分提取特征, 而使得特征的抽取和选择有时变得很困难。
离散的K-L变换
特征选择:可看作是从原始的 n 维空间 N 到 m 维特征空间 M 的一个映射。 m n 通常用一个 n 维随机向量 X 来表示一个模式。 若
g:N M
X | Y g X
则 Y 就是一个选择出来的特征向量,这里 X N , Y M , g 是从N 到 M 的映射。 对于映射 g 的要求是:若用 Y 来恢复原始模式 时,不应使模式产生明显的畸变。
特征的数量问题 当用一组特征已经无法区分模式类别时,自然 会想到增加新的特征,那么我们会问,特征数量 是不是越多越好呢?
当特征数量不多时,增加特征数量,问题不大。
但是,当特征数量比较大,达到一定的数量之后, 增加特征数量反而会使分类器的性能变坏。
产生这个问题的基本原因是用来设计分类器的样 本数量是有限的。 那么可不可以在增加特征的同时,也增加样本 数量呢?
n
i m 1
n
n
E[iT ( X E ( X ))iT ( X E ( X )]
T
i m 1
T E [ ( X E ( X ))( X E ( X ) i ] i
i m 1
T T E [( X E ( X ))( X E ( X ) ]i i
为nxn矩阵
1 (1) 2 (1) n (1) (2) (2) (2) 2 n 1 , 2 ,..., n 1 1 (n) 2 (n) n (n)
式中,每列为正交函数集中某一个函数在n个采样 点上的数值,这样 实际上是由 j 向量组成的正 交变换矩阵。 如何确定正交向量集 { j }
i m 1
所以,应该把那些本征值大的对应特征保留下来。 如果将本征值从大到小顺序编号 1 2 ... n 0 则它可作为特征选择的依据。
K-L变换实现特征选择的方法 (1)求协方差矩阵、本征值,本征向量 (2)将协方差矩阵的本征值按大小排序,根据 降维需要选取投影坐标系的维数。
是 n n 方阵, i 是 n 维列向量。
Y y1 , y2 ,..., yn
T
X yii Y
i 1
n
i=1:
1 (1) i=2: 2 (1) (2) (2) 2 1 y y1 2 ( n ) 2 1 (n)
设 X 是一个 n 维的随机向量,则可以用下式展 n 开为:
X yii Y
i 1
式中,
1 (1) 2 (1) n (1) (2) (2) (2) 2 n 1 , 2 ,..., n 1 1 (n) 2 (n) n (n)