第4讲 特征降维
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
cΒιβλιοθήκη Baidu
c
ni
nj (i ) ( j) k ,xl )
(x
k 1 l 1 ni nj
c 2, P1 0.6, P2 0.4, n1 3, n2 2 J d ( x) 1 2
Pi
i 1 j 1
Pj
3
1 ni n j
3
(x
k 1 l 1
(i ) ( j) k ,x l )
原始特征集合 S 中包含 D 个特征,目标特征集合 F 中包含 d 个特征。 同样,对于各种可能的特征选择方案,需要选择最优的一种,也就是降维后 分类最有效的一种,通常设定一个准则函数 J(F),使得取到最优特征选择时,准 则函数值取到最大值,即 J(F*)=max J(F)。
4、 准则函数的选取
(1) 准则函数的选取原则 在设定了准则函数后, 求取最优的特征提取或特征选择可以看作一个泛函求 极值的问题,因此,准则函数的选取是特征提取或特征选择算法的关键。
T ( ( xk( i ), xl( j ))=( xk( i )- xl( j )) xk(i )- xl( j ))
用 mi 表示第 i类样本集的均值向量 : mi
1 ni
ni
x
k 1
(i ) k c
用 m表示所有各类样本集的总均值向量: m Pm i i
i 1
则
T 1 T (i ) J d ( x ) P i xk m i xk( i ) mi mi m mi m i 1 ni k 1 ni c c T 1 1 T Pi xk( i ) m i xk(i ) mi Pi mi m mi m ni k 1 ni i 1 i 1
c
ni
令类内离散度矩阵( Within-class Scatter Matrix ) Sw 和类间 离散度 矩阵 (Between-class Scatter Matrix)Sb 分别为:
1 Sw Pi ni i 1
c i 1
c
x
k 1
ni
(i ) k
(i) mi xk mi
ni为i中的样本数,nj为 j中的样本数,Pi,Pj是各类的先验概率。
例:
第 3 页 自动化学院 模式识别与智能系统研究所 高琪 gaoqi@bit.edu.cn
《模式识别》讲义 2014 版:第四讲 特征降维
1 Jd ( x ) 2
2 2
1 Pi Pj ni n j i 1 j 1
2、 特征提取 Feature Extraction
特征提取是通过某种变换,将原始特征从高维空间映射到低维空间。 A:X→Y; A 称为特征提取器,通常是某种正交变换 (Orthogonal Transformation) 。
图 2 特征提取
对于各种可能的特征提取器,需要选择最优的一种,也就是降维后分类最有 效的一种,通常设定一个准则函数 J(A),使得取到最优特征提取时,准则函数值 取到最大值,即 J(A*)=max J(A)。
(i) 设一个分类问题共有c类,令xk ,xl( j ) 分别为i 类及 j 类中的D维 (i ) 特征向量,(xk ,xl( j ))为这两个向量间的距离,则各类中各特征
向量之间的距离的平均值,称为类内类间距离: Jd ( x )
c 1 c 1 ni j ) P i P j (xk(i ),xl( j ) 2 i 1 j 1 ni n j k 1 l 1 n
* * Sw W T S wW , Sb W T SbW
*
*
对于 J2 准则,进行特征提取后,准则函数值为:
* * J 2 tr S w Sb tr[(W T S wW ) -1W T S bW ]
1
求最优的特征提取, 就是求最优的变换阵 W, 使得准则函数值在此变换下能 取得最大值。 将准则函数对 W 求偏导,并令其为 0,解出的 W 就是可使得准则函数 J2 取 得最大值的变换阵。结论为: 将矩阵 S w Sb 的特征值(Eigenvalues)按大小排序: λ1 λ2 ... λD 则前 d 个特征值对应的特征向量(Eigenvectors) 1 , 2 ,..., d 可构成最优变 换阵 W*,即
3、 特征选择 Feature Selection
特征选择是从高维特征中挑选出一些最有效的特征, 以达到降低特征空间维 数的目的。
S : {x1 , x2 ,......, xD } F : { y1 , y2 ,......, yd } yi S , i 1,2,..., d ; d D
d
当特征独立时具有可加性,即 J( ij x1 , x2 , , xd )
J
k 1
ij
( xk )
J ij 0,当i j时 具有标量(Scalar)测度特性: J ij 0,当i j时 J J ji ij
对特征数量具单调性,即:
J( ij x1 , x 2 , , x d ) J ( ij x1 , x 2 , , x d , x d+1 )
《模式识别》讲义 2014 版:第四讲 特征降维
第四讲 特征降维
一、 基本概念
1、 特征降维 Dimensionality Reduction
图 1 特征降维的内容
在模式识别系统中, 确定分类和学习过程所使用的特征是非常重要的一个环 节,获得对分类最有效的特征,同时尽最大可能减少特征维数,是特征降维的主 要任务。 特征降维可以分成特征生成和特征降维两个步骤。 (1) 特征生成 Generating Features 对于一个模式识别任务, 经过模式采集和预处理得到的模式信息不一定能直 接用于模式分类,需要从中经过数据处理和转换得到对具体分类任务有效的特 征。例如对于模式采集到的图像信息,其原始数据为像素点的颜色值矩阵,而对 于不同的模式识别任务和模式识别算法,可以提取出不同类型的特征: 轮廓特征 Outline:图像中物体的边缘轮廓 颜色特征 Color Distribution:图像中颜色分布和均值 纹理特征 Texture:图像各个部位的主体纹理 数学特征 Mathematics:各像素点相关性等其他物理意义不明显 的数学特征 (2) 特征降维 Reducing Dimensions 在获得了原始特征后,需要进行特征降维。降维的目的一方面是为了删除冗 余信息, 减少模式识别算法的计算量; 另一方面是为了提高特征对分类的有效性, 避免信息干扰 。如果不经过这一降维过程 ,可能出现“维数灾难 (Curse of Dimensionality)” ,无法进行有效的模式识别分类。例如:在文本分类中,如果采 用原始的词频统计数据作为分类特征,则有多少个不同的词就有多少维特征,一 篇长文的特征维度会超过数千维,基本无法进行计算。 由于各个维度的特征对于分类的贡献不一,在降低特征维度时,需要采用适
( 2) (1) k ,x l )
(x
(2) ( 2) k ,x l )
对于随机性的统计分类,如果样本集是给定的,则无论其中各类样本如何划 分,类内类间距离都是相等的,也就是说,类内类间距离本身和分类错误率不相 关,不能直接用于类别可分性测度。 虽然类内类间距离本身不能用作类别可分性测度,但对其进行分解处理后, 可以得到与类别可分性相关的测度指标。 如采用均方欧氏距离来度量两个特征向量之间的距离,则有
1 1 P1 P1 2 33
(x
k 1 l 1 3 2 k 1 l 1 2 3
(1) (1) k ,x l )
1 1 + P1 P2 2 3 2
(x (x
l 1 2 2 k 1 l 1
(1) ( 2) k ,x l )
1 1 + P2 P1 2 2 3 k 1 1 1 + P2 P2 2 2 2
当两类完全可分时,若 p(x|ω1) ≠0,则 p(x|ω2)=0;当两类完全不可分时: 对任意 x,都有 p(x|ω1) = p(x|ω2);一般情况下,两类会介于完全可分和完全 不可分之间。 依据以上度量方式,可定义类别可分性的概率距离准则:
若任何函数J p () g[ p ( x | 1), p ( x | 2), P1 , P2 ]dx 满足以下条件: a、J p 0; b、当两类完全可分时J p 取得最大值; c、当两类完全不可分是J p为0 ; 则可作为两类之间可分性的概率距离度量。
二、 使用类内类间距离进行特征提取
1、 准则函数的构造
类内类间距离可表示为:Jd=Jw+Jb=tr(Sw+Sb ) 其中 Jw 是类内平均距离,Jb 是类间平均距离。 对于一个给定的样本集,Jd 是固定不变的。而通过特征提取后,新获得的特 征使得样本集可以划分为不同的类, 最佳的特征提取应当是使得各类之间的可分 性最好,也就是 Jb 最大,Jw 最小。因此,可以直接采用 Jb 作为特征提取的准则 函数,称为 J1 准则。 但直接使用 J1 准则难以得到可行的特征提取算法,考虑到类内离散度矩阵 Sw 和类间离散度矩阵 Sb 是对称矩阵,迹和行列式值在正交变换下具有不变性, 常构造以下几种特征提取准则函数:
第 1 页 自动化学院 模式识别与智能系统研究所 高琪 gaoqi@bit.edu.cn
《模式识别》讲义 2014 版:第四讲 特征降维
当的算法,最大可能地保留对分类有效的信息。 特征降维的主要方法包括特征提取和特征选择。 前者从高维特征空间映射得 到低维特征空间,新的特征和旧的特征并不相同;而后者是从高维特征中选择一 部分特征组成低维特征空间,并不改变每个维度上的特征。
Jw 称为类内平均距离(Within-class Average Distance) ,Jb 称为是类间平均距 离(Between-class Average Distance) 。从类别可分性的要求来看,希望 Jw 尽可能 小, Jb 尽可能大。 (3) 概率距离 Probabilistic Distance 类间的概率距离可用分布函数之间的距离来度量,例如对两类问题:
假设有 D 个原始特征: x [ x1 , x2 , , x D ]T 通过特征提取后压缩为 d 个特征: y [ y1 , y2 ,, y d ]T 其映射关系为: y W T x 令 S b 、 S w 为原始特征空间中样本集的离散度矩阵, S b 、 S w 为特征提取 后新特征空间中样本集的离散度矩阵,则有:
T
Sb Pi mi m mi m
T
则 Jd ( x) tr Sw Sb tr ( Sw) tr ( Sb ) Jw Jb
第 4 页 自动化学院 模式识别与智能系统研究所 高琪 gaoqi@bit.edu.cn
《模式识别》讲义 2014 版:第四讲 特征降维
第 2 页 自动化学院 模式识别与智能系统研究所 高琪 gaoqi@bit.edu.cn
《模式识别》讲义 2014 版:第四讲 特征降维
分类正确率(Accuracy Rate)是最佳的准则函数,如果经过某种方案的特征 提取或特征选择后,得到的低维特征是所有可能方案中分类正确率最高的,就是 最优的特征提取或特征选择。但是分类正确率难以直接计算,因此可以用特征选 取方案对类别的可分性测度作为准则函数, 通常两类之间的类别可分性测度要满 足以下条件: 与分类正确率有单调递增(Monotonic Increase)关系
类别可分性测度是紧致性(Compactness)的量化,通常情况下,紧致性越 好的类别划分,其类别可分性测度值也会越大。 常用的类别可分析测度有基于类内类间距离和概率距离两种。 (2) 类内类间距离 Within-class & Between-class Distance 对于一个已知的样本集,类内类间距离的数学定义为:
J 2 tr Sw -1 Sb ,J 3 ln[
Sb Sw
],J 4
Sw Sb tr ( Sb ) ,J 5 tr ( Sw ) Sw
2、 基于 J2 准则的特征提取算法
第 5 页 自动化学院 模式识别与智能系统研究所 高琪 gaoqi@bit.edu.cn
《模式识别》讲义 2014 版:第四讲 特征降维