第十二讲 特征提取和选择
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(4) 特征独立时,判据满足可加性,即:
J ij ( x1 , x2 ,
, xd ) J ij ( xk )
k 1
d
(5) 单调性,当加入新特征时,判据不减少。
Jij ( x1, x2 ,
, xd ) Jij ( x1, x2 ,
, xd , xd 1 )
下面介绍几种常见的特征评价标准,即类别可分性判 据。
(3) 数字特征
一般来说,数字特征是为了表征观察对象而设立的特 征,如给每个学生设立一个学号,作为标志每个学生的特 征。 由于学号是人为设定的,可保证唯一性,但这种特征 是抽象的,不容易被人感知。 数字特征有时和观察对象的 固有特性没有任何联系,有时则是物理特征或结构特征的 计算结果。
物理和结构特征:易于为人的直觉感知,但有时难于定量 描述,因而不易用于机器判别。 数学特征:易于用机器定量描述和判别,如基于统计的特 征。
tr (Sb ) J4 tr (S w )
为了有效地分类,它们的 值越大越好。 基于距离的可分性判据虽 然简单直观,但只是对于类间 无重叠的情况效果较好,若类 间存在重叠,则效果会受到影 响。 基于概率的可分性判据 能够较好地解决类间有重叠的 问题。
| S w Sb | J5 | Sw |
1.基于距离的可分性判据
基于距离的可分性判据直接依靠样本计算,直观简 洁,物理概念清晰,因此目前应用较为广泛。基于距离 的可分性判据的出发点是:各类样本之间的距离越大、 类内离散度越小,则类别的可分性越好。 (1) 两类之间的距离 设两类为ωi、 ωj, 分别有Ni、Nj
i {x , x , , x }
—— 特征选择:一般根据物理特征或结构特征进行压缩。
x2
x2 B 2
' x2
x1'
B B
[法2]:① 特征抽取:测量
x2 A2
A
x2 B1 x2 A1
x1B1 x1 A1
物体向两个坐标轴的投影 值,则A、B各有2个值域区 间。可以看出,两个物体的 投影有重叠,直接使用投影 值无法将两者区分开。
x1B 2 x1A2
第5章 特征提取和选择
5.1 5.2 5.3 5.4 5.5 引言 基本概念 类别可分性判据 基于可分性判据的特征提取 主分量分析(PCA)
5.1
引言
在模式识别领域,特征的提取与选择是最关键的问题 之一,同时也是最困难的问题之一。不同的模式识别应用, 需要采用不同的特征提取与选择方法。 对于 实际的模式识别问题,以人脸识别为例,一开 始的原始特征可能很多,如在人脸数据库中,每幅图像的 分辨率为11292,即高达10304维。若把所有的原始特征 都作为分类特征送到分类器,不仅使得分类器复杂,分类 判别计算量大,而且分类错误概率也不一定小;原始特征 的特征空间有很大的冗余,完全可以用很小的空间相当好 地近似表示图像,这一点与压缩的思想类似。因此有必要 减少特征数目,以获取“少而精”的分类特征,即获取特 征数目少且能使分类错误概率小的特征向量。 模式识别中减少特征数目(或压缩特征空间)的方法有 两种:一种是特征提取,另一种是特征选择。
4.特征的形成
在设计一个具体的模式识别系统时,往往是先接触一
些训练样本,由领域专家和系统工程师联合研究模式类所
包含的特征信息,并给出相应的表述方法。 这一阶段的主 要目标是获取尽可能多的表述特征。 在这些特征中,有些
可能满足类内稳定、 类间离散的要求,有的则可能不满足,
不能作为分类的依据。 根据样例分析得到一组表述观察对 象的特征值,而不论特征是否实用,称这一步为特征形成, 得到的特征称为原始特征。
x1
② 分析:将坐标系按逆时针方向做一旋转变化,或物体按顺时针方向变,并适当平 移等。根据物体在x 2轴上投影的坐标值的正负可区分两个物体。
'
——特征提取,一般用数学的方法进行压缩。
5.3 类别可分性判据
(特征评判标准)
特征评判标准主要是衡量各类别间的可分性,如使分 类器错误概率(误差)最小的那组特征当然是最好的一组特 征。从理论上说,这是完全正确的,但在实际应用中存在 极大的困难。 因此,希望构造一些更实用、更具有可操作性的评判 标准,这些标准应满足以下几点:
3.特征的类别
特征是用于描述模式性质的一种量,从形式上看 可以分为三类:
(1)物理特征
物理特征是比较直接、人们容易感知的特征,一般在 设计模式识别系统时容易被选用。 如为了描述指定班级中 的某个学生,可以用以下物理特征:性别、 身高、 胖瘦、 肤色等外在特征。 物理特征虽然容易感知, 却未必能非常 有效地表征分类对象。
其中,P(i )是先验概率P(ωi)的估计,即:
P(i ) Ni / N
i 1, 2,
,m
为了使所使用的特征能够有效地进行分类,我们希望 类间离散度尽量大,同时类内离散度尽量小,从直观上看 可以构造下面各种判据:
J1 Sb Sw
1 J 2 tr (S w Sb )
Sb J 3 ln Sw
实现上述目的的方法有两种: 特征提取和特征选择。 特征提取和特征选择都不考虑针对具体应用需求的原始特
征形成过程,而是假设原始特征形成工作已经完成。 然而
在实际工作中,原始特征的获得并不容易,因为人具有非 常直观的识别能力,有时很难明确描述用于分类的特性依 据。 如人脸的判定,人识别脸部特征非常容易,若用计算 机来识别人脸,则需要得到多达上千个特征,难度很大。 可以说, 特征形成是模式识别过程中的重点和难点之一。
当模式在空间中发生移动、旋转、缩放时,特征值应保持不变,保证仍可得
到同样的识别效果。
例:特征选择与特征提取的区别:对一个条形和圆进行识别。
解:[法1]
B
① 特征抽取:测量三个结构特征 (a) 周长
(b) 面积
A
(c)两个互相垂直的内径比
② 分析:
(c)是具有分类能力的特征,故选(c), 扔掉(a) 、 (b) 。
没有什么差异,作为分类的依据时,容易使不同的类产生
混淆,使误识率增大。 一般来讲,特征的类间差异应该
大于类内差异。
2.对特征的要求
(1) 具有很大的识别信息量。即应具有很好的可分性。 (2) 具有可靠性。模棱两可、似是而非、时是时非等 不易判别的特征应丢掉。 (3) 尽可能强的独立性。重复的、相关性强的特征只 选一个。 (4) 数量尽量少,同时损失的信息尽量小。
(2) 类内稳定 选择的特征对同一类应具有稳定性。 由于模式类是 由具有相似特性的若干个模式构成的, 因此它们同属一类
模式, 其首要前提是特性相似, 反映在取值上, 就应该有较
好的稳定性。 (3) 类间差异 选择的特征对不同的类应该有差异。 若不同类的模 式的特征值差异很小,则说明所选择的特征对于不同的类
4.特征提取和选择的作用
特征选择是指从一组特征中挑选出对分类最有利的特 特征提取是指通过映射(或变换)的方法获取最有效的 特征,实现特征空间的维数从高维到低维的变换。 经过映 射后的特征称为二次特征,它们是原始特征的某种组合, 最常用的是线性组合。
从定义可以知,实现特征选择的前提是确定特征是否 有效的标准,在这种标准下,寻找最有效的特征子集。 用 于特征选择的特征既可以是原始特征,也可以是经数学变 换后得到的二次特征。 需要注意,特征提取一定要进行数 学变换,但数学变换未必就是特征提取。
(2)
设N个样本分别属于m类,ωi={xik, k=1, 2, …, Ni}, i=1, 2, …, m
m 1 m 1 J (x) P(i ) P( j ) 2 i 1 Ni N j j 1 i j D ( x , x r s ) (5.3.1) r 1 s 1 Ni Nj
i i i 2
j 2
i Ni
j {x , x , , x }
j 1 j Nj
两类间的距离 D 可由下式给出:
i j
Di j
1 Ni N j
D(x , x )
r 1 s 1 i r j s
Ni
Nj
其中,D(xir, xjs)为向量xir、xjs间的距离。 由点 间距离的对称性可知,类间距离也具有对称性。 常用的点间距离有:欧氏距离、马氏距离、绝 对距离(城市距离、 Hamming距离)、 Minkowsky 距离等。
在这些原始特征中,有的特征对分类有效,有的则不 起什么作用。 若在得到一组原始特征后,不加筛选, 全部 用于分类函数确定,则有可能存在无效特征,这既增加了 分类决策的复杂度,又不能明显改善分类器的性能。 为此,
需要对原始特征集进行处理,去除对分类作用不大的特征,
从而可以在保证性能的前提下,通过降低特征空间的维数 来减少分类方法的复杂度。
在模式识别系统中, 确定分类和学习过程所使用的特征是非 常重要的一个环节,获得对分类最有效的特征,同时尽最大 可能减少特征维数,是特征选取的主要任务。 特征选取可以分成原始特诊的采集和转换、有效特征的生成 两个步骤。
原始特征:通过直接测量得到的特征称为原始特征。比如 人体的各种生理指标(描述其健康状况);数字图像中的 每点灰度值(以描述图像内容),都是原始特征。
特征提取和特征选择的主要目的都是在不降低或很
少降低分类结果性能的情况下,降低特征空间的维数,
其主要作用在于: (1) 简化计算。 特征空间的维数越高,需占用的计算
机资源越多,设计和计算也就越复杂。
(2) 简化特征空间结构。 由于特征提取和选择是去除 类间差别小的特征,保留类间差别大的特征,因此,在 特征空间中,每类所占据的子空间结构可分离性更强, 从而也简化了类间分界面形状的复杂度。
5.2 基本概念
1.特征的特点 模式识别的主要功能在于利用计算机实现人的 类识别能力, 它是一个与领域专门知识有关的问题。
研究领域不同,选择的特征也ห้องสมุดไป่ตู้同,但不论采用什么 样的特征,都应该满足如下条件: (1)特征可以获取 模式识别系统的主要处理设备是计算机,因此作为观 察对象的数字化表达,观察对象应该是可以通过数据采集 设备输入到计算机的。 目前,市场上有各种传感设备和数 字化设备,如采集图像信息的图像卡和采集语音信息的声 卡等。 作为特征,既可以是数字化表达的结果,也可 以是在数字化表达基础上形成的参数性质的值,如图像分 割后的子目标特征表达等。
特征提取:通过映射(变换)的方法把高维的特征向量变换为 低维的特征向量。 通过特征提取获得的特征是原始特征集的某种组合, 即A:X→Y,可见新的特征中包含有原有全体特征的信息。 特征选择:从原始特征中挑选出一些最有代表性、分类性 能好的特征以达到降低特征空间维数的目的。 也就是说,特征选择就是从已有的D个原始特征中挑选 出d个特征组成一个特征子集,同时将D-d个对类别可分离 性无贡献的或贡献不大的特征简单地忽略掉。
(1) 与错误概率(或是错误概率的上、 下界)有单调关系, 使判据取极值时对应分类器错误概率较小。
(2)非负性,即:
J ij 0 J ij 0
(3) 对称性, 即: Jij = Jji
i j i j
其中, Jij表示ωi、 ω j两类间的可分性判据。
该特性表明有效性判据对类别号没有方向性,而只 强调对区分两类的贡献。
特征提取与具体问题有很大关系,目前没有 理论能给出对任何问题都有效的特征提取方法。 ������ 如: ♦用傅立叶变换或小波变换的系数作为图像 的特征; ������ ♦用PCA方法作特征压缩; ������ ♦用LDA(线性判别分析,Linear Discriminant Analysis)方法作特征压缩。
(2) 结构特征
结构特征的表达能力一般要高于物理特征,如汉字 识别的成功实现离不开结构特征的选择。 结构特征的表 达是先将观察对象分割成若干个基本构成要素,再确定 基本要素间的相互连接关系。
通过要素和相互连接关系表达对象,可以较好地表达 复杂的图像信息,在实际中已经有较多的成功应用, 如 指纹的识别就是基于结构信息完成的。 结构信息对对象 的尺寸往往不太敏感,如汉字识别时,识别系统对汉字大 小不敏感,只对笔划结构信息敏感。 结构特征比物理特征要抽象一些,但仍属比较容易感 知的特征,如人的指纹特征、 人脸的五官结构信息等, 是目前认定人的身份的重要参数。