武汉大学模式识别特征选择和提取
模式识别讲义-特征提取和特征选择

完全可分:若p(x|ω1) ≠0时, p(x|ω2)=0;
完全不可分:对任意x,都有 p(x|ω1) = p(x|ω2);
二、距离
(2)概率距离
若任何函数Jp g[ p(x | 1), p(x | 2), P1, P2]dx满足以下条件:
a、Jp 0; b、当两类完全可分时 Jp取得最大值; c、当两类完全不可分是 Jp为0;
总错误率P(e) P(x R2 1) P(x R3 1) ... P(x RM 1)P(1) P(x R1 2 ) P(x R3 2 ) ... P(x RM 2 )P(2 ) ... P(x R1 M ) P(x R2 M ) ... P(x RM 1 M )P(M )
X
p(x | j)
Xp(x | i)来自 [ p(x | i) p(x | j)]ln p(x | i) dx
X
p(x | j)
三、特征提取算法
1、使用类内类间距离进行特征提取类内类间距离
Jd=Jw+Jb=tr(Sw+Sb)
其中Jw是类内平均距离,Jb是类间平均距离 通常给定一个训练集后,Jd是固定的,因此,在特征
模式识别 第八讲 特征选择与特征提取
回顾:
贝叶斯分类的原理 最小错误率贝叶斯分类 最小风险贝叶斯分类 最大似然比贝叶斯分类 正态分布情况下的贝叶斯分类
分类器的错误率
1、分类器的错误率
•错误率是评价一个分类器的重要指标 •错误率受分类决策方法、训练集、测试集和偶然因 素的影响 •分类错误是一个概率事件,错误率应由概率方式表 达
各特征向量之间的距离 的平均值,称为类内类 间距离:
c
模式识别(7-2)特征的选择与提取

5 4
,
54
试用K-L变换作一维数据压缩。
思路:1)求总体均值向量;2)求产生矩阵ψ ; 3)求产生矩阵的特征值λi 及特征向量 i ;
4)按λi排序,确定变换矩阵W; 5)利用 y W T x 求新的一维样本。
K-L变换的一些典型应用
上面我们从数学的角度分析了K-L变换的 性质。归结起来,它消除了各分量之间的 相关性,因而用它来描述事物时,可以减 少描述量的冗余性,做到用最经济有效的 方法描述事物。下面结合一些应用实例来 说明如何运用K-L变换的这一性质。
但是由于它的正交基函数族是从训练样本集中计算出 来的,因此并不存在一种对任何数据都适用的K-L变 换基,一般的作法是先用一组训练数据计算出K-L变 换基,然后用这组基来分析其它数据。
K-L变换的性质
K-L变换的性质
K-L变换的性质
K-L变换的产生矩阵
当样本所属类别未知时:
x的相关函数矩阵 x的协方差矩阵
§7.3 基于K-L展开式的特征提取
图6-3b
图6-3(b)中的向量A与B在一个二维空间定义,它们两者分别含有成 分为(a1,a2)与(b1,b2),a1与b1是两者的同一种成分,a2与b2则是 另一种成分。故它们的点积定义为a1b1+a2b2,在这种条件下就不 需要积分,而只是简单求和。
§7.3 基于K-L展开式的特征提取
K-L变换的一些典型应用
4.人脸图象合成
用K-L变换构造参数模型的另一种典型用途是人 脸图象合成。从下面的例子中可以看出,有目 的地控制各个分量的比例,也就是通过调整参 数向量。可以将一幅不带表情图象改变成带各 种表情的图象,称为人脸表情图象合成。
为了对复杂事物进行经济有效的描述,我们希望将其分解 成相互独立的成分,譬如我们分析其快速变化的成分时, 就希望它只不再混杂其它成分。
特征的提取和选择

特征的提取和选择
特征提取和选择是机器学习中非常重要的环节,它既可以减少计算量,又可以提高模型的性能。
选择较好的特征可以让模型更加简单,更加容易
和快速的训练出最佳参数,从而使得模型更加精确、效果更好。
一般来说,特征提取和选择有以下几步:
1.特征提取。
特征提取关注的是利用现有特征生成新的特征。
它可以
是特征融合(如结合多个特征生成更强大的特征),也可以是特征变换
(如离散特征变换成连续特征)。
2.无关特征删除。
把没有帮助的特征删除,有助于减少模型的运行时间,提高模型的效果。
3.有关特征选择。
把与目标值有很强关联的特征选择出来,这些特征
被称为有关特征,它们可以帮助模型训练出更好的结果。
4.特征降维。
为了减少特征之间的相关性,减少计算量,与有关特征
相关性比较低的特征可以被删除。
5.特征加权。
调整特征的权重,使得有关特征拥有更大的影响力,从
而帮助模型更好的进行预测。
通过这种特征提取和选择的过程,可以把训练集中拥有相关性比较高
的有用特征保留下来,把没用的特征抛弃,有效的提高模型的性能。
特征选择和特征提取

原始测量:(正常与异常)细胞的数字图像 原始特征(特征的形成,找到一组代表细胞性质
的特征):细胞面积,胞核面积,形状系数,光 密度,核内纹理,核浆比
压缩特征:原始特征的维数仍很高,需压缩以便 于分类
• 特征选择:挑选最有分类信息的特征 • 特征提取:数学变换
– 傅立叶变换或小波变换 – 用PCA方法作特征压缩
– 特征值
对于一个N N的矩阵A,有N个标量k,k 1, N,满足 A k I 0 k 称为矩阵的一组特征值。
如果给定的矩阵是奇异的,那么N个特征值中至
少有一个为0。
矩阵的秩
定义为矩阵非零特征值的个数。
矩阵的条件数 定义为最大特征值与最小特征值
的比值的绝对值。
病态矩阵
条件数很大。
jd1
jd1
因为uj是确定性向量,所以有
u T jE x xT uj u T jR uj
j d 1
j d 1
R r ij E (x ix j) E x x T
求解最小均方误差正交基
特征 提取
用Lagrange乘子法,可以求出满足正交条件下的ε 取极值时 的坐标系统:
特征形成 (acquisition): 信号获取或测量→原始测量 原始特征
实例: 数字图象中的各像素灰度值 人体的各种生理指标
原始特征分析: 原始测量很大程度上不能反映对象本质
高维原始特征不利于分类器设计:计算量大, 冗余,样本分布十分稀疏。
二、特征的选择与提取
两类提取有效信息、压缩特征空间的方法: 特征提取和特征选择
PCA的求解:特征向量常被叫做“主分量”,每个样 本被它在前几个主分量上的投影近似表示,U张成的空 间称为原空间的子空间,PCA实际上就是在子空间上的 投影.
模式识别第六讲 特征提取(介绍)v1.0

解得特征根为 1 5.83 , 2 2.00 ,3 0.17
0.383 U1 0.924
0.000
0 U 2 0
1
0.924 U3 0.383
0.000
第一个主成分的贡献率为5.83/(5.83+2.00+0.17)=72.875%,尽 管第一个主成分的贡献率并不小,但应该取两个主成分。97.88%
u
pp
则实对称阵 A 属于不同特征根所对应的特征向 量是正交的,UU UU I
PCA的一些性质
(3)均值 E(UT x) UT M (4)方差为所有特征根之和
pห้องสมุดไป่ตู้
Var(Fi ) 1 2
p
12
2 2
2 p
i 1
说明主成分分析把P个随机变量的总方差分解成为
在普通特征上MKL表现有限
结论:特征更重要(?)
特征的数量越多越好?
一般而言,特征越多,给出信息就越多,识别准确性会得到提升; 但特征多,计算复杂度增加,探索的空间大,可以用来训练的数据在 每个特征上就会稀疏。 结论:不一定特征越多越好!需要有多少个特征,需要学习确定。
目前结论:关于训练样本的数量
PCA图形几何解释(一)
为了方便,我们在二维空间中讨论主成分的几何意义。 设 有n个样本,每个样本有两个观测变量xl和x2,在由变量xl和x2 所确定的二维平面中,n个样本点所散布的情况如椭圆状。由 图可以看出这n个样本点无论是沿着xl 轴方向或x2轴方向都具 有较大的离散性,其离散的程度可以分别用观测变量xl 的方差 和x2 的方差定量地表示。显然,如果只考虑xl和x2 中的任何一 个,那么包含在原始数据中的信息将会有较大的损失。
模式识别 第6章 特征的选择和提取

基于熵函数的可分性判据
c
Shannon熵:
J
1 c
P(i | x) log2 P(i | x)
i 1
平方熵:
J
2 c
2 1
c i1
P2 (i
|
x)
© 李春权
模式识别
哈尔滨医科大学
生物信息科学与技术学院
200192
‹#›
目录
6.1引言
6.2 类别可分离性判据
6.3 特征提取
6.4 特征选择(重点)
GSFS法计算量大(每步有C
L D-k
个候选
特征组需要逐个计算)。另外它也无法剔
除已入选的特征。
© 李春权
模式识别
哈尔滨医科大学
生物信息科学与技术学院
200192
‹#›
顺序后退法
顺序后退法(Sequential Backward Selection, SBS)是一种自上而下的方法,它从全体特征开 始每次剔除一个,所剔除的特征应使仍然保留的 特征组的J值最大,直到特征数减少到d为止。 设已剔除了k个特征,剩下的特征组为 Xk ,将 Xk 中的各特征xj按上述J值大小排序,j=1,2,…,D-k。 若 J (Xk x1) J (Xk x2 ) J (Xk xDk ) 则 Xk1 Xk x1
(1)当L>r时,L-r法是一种自下而上的算法,先 执行第一步,然后执行第二步,开始时,设置k=0 ,x0=空
(2)当L<r时,L-r法是一种自上而下的算法,此 时先执行第二步,然后执行第一步,开始时设置 k=0,x0={x1,…,xD}
© 李春权
模式识别
哈尔滨医科大学
生物信息科学与技术学院
200192
模式识别 第六章 特征提取与选择

(三) 类内及总体的均值矢量
类的均值矢量:
m (i)
1 Ni
Ni
xk
(i
)
k 1
i 1,2,, c
各类模式的总体均值矢量 m c Pi m (i)
i 1
Pi 为相应类的先验概率,当用统计量代替先验概 率时,总体均值矢量可表示为:
m
c i 1
Pi
只考虑连续的情况:
因为f(0)=f(1) = 0 ,当 0 s 1 时
f ’(s) = a-b-asb1-s (ln a - ln b)=0 a=b
从而有 f(s)=0 a=b ,由此有:
JC=0 p(x |1) p(x | 2 )
28
Jc 性质(5)证明:
设P(e)为最小误分概率,则:
由上式进一步可得:
P0 (e) P(1)s P( 2 )1s
p(
x
1
)
s
p(
x
2
)1
s
d
x
W
P(1)s P( 2 )1s exp JC
29
6.2.2基于类的概率密度函数的可分性判据
由JB和JC的定义知:JB=JC(1/2)
对p(两x类都1)是~正N态(分m布(1)情, C况1:)
)
)
T
C1
C2 2
1
(m (1)
m (2) )
p( x
2)
~
N (m (2)
, C2 )
JC
1 s(1 s)(m (1) 2
m (2) )T
模式特征的提讲义取与选择

1 概述
模式特征的提取与选择
(1)用一定数量的样本估计出来的参数 设计Bayes分类器时,随着维数的增加 要求样本数急剧增加,这样才能保证一 定的错误率.
1 概述
模式特征的提取与选择
(2)在用线性判别函数来划分模式空间 时,一般要用一组样本来决定划分区域 的超平面.当增加维数时,样本数应有更 多的增加才能保持原有的超平面容度.
2 类别可分性判据
模式特征的提取与选择
基于类概率密度函数的可分性判据
I12(x)=E1{ln[p(x|w1)/p(x|w2)]} I21(x)=E2{ln[p(x|w2)/p(x|w1)]}
2 类别可分性判据
模式特征的提取与选择
基于后验概率的可分性判据
原理:选择使后验熵最小的那些特征 用于分类识别。
以分类器的错误概率做为标准有难度.
2 类别可分性判据
模式特征的提取与选择
类别可分性判据应满足的几个要求:
与错误概率(或其界限)有单调关系, 使判据取最值时,错误概率也较小.
当特征相互独立时,判据具有可加性. 判据须有度量特性(非负性,对称性). 自身有单调性(加入新特征时,判据不 减小).
2 类别可分性判据
2 类别可分性判据
模式特征的提取与选择
基于类概率密度函数的可分性判据
判据举例
Bhattacharyya判据
JB=-lnS[p(x|w1)p(x|w2)]1/2dx Chernoff判据
JC=-lnSp(x|w1)sp(x|w2)1-sdx 散度(总的平均可分性信息)
JD=I12(x)+I21(x)
Sw*=WTSwW SB*=WTSBW
模式特征的提取与选择
3 基于可分性判据进行变换的特征提取
模式识别 第6章 特征选择与提取

第六章特征选择与提取6.1 引言6.2 类别可分性判据6.3 特征选择6.4 特征提取6.5 图象的特征提取6.1 引言基本任务:如何从多特征中找出那些最有效的特征或:获取一组”少而精”的分类特征压缩⇒⇒研究如何高维特征空间低维特征空间特征分为三类:(1)物理的; (2)结构的; (3)数学的本章研究、讨论:学习样本选择并提取数学特征⎧⎨⎩⎧⎪⎪⎪⎨⎪⎧⎪⎨⎪⎩⎩物理人们直观识别对象特征感觉器官接受结构统计平均值相关系数机器自动识别对象:数学特征本征值协方差阵本征向量基本概念1.特征形成:根据被识别的对象产生一组原始特征⎧⎨⎩传感器的直接测量值模式空间计算值(波形、数字图象)例如:细胞识别⎧⎫⎪⎪⎪⎪⎯⎯⎯→⎨⎬⎪⎪⎪⎪⎩⎭计算通过图象输入得到细胞的数字图象细胞面积总光密度原始特征胞核面积核浆比⎧⎨⇒⎩专家经验和知识方法数学方法筛选比较Y XT E E T ⇒::特征提取值(变换)器3.特征提取:通过映射或变换的方法,把模式空间的高维特征向量变成特征空间的低维特征。
2.特征选择:从一组特征中挑选出一些最有效的特征(过程)。
⎧⎪⎨⎪⎩特征评估标准解决特征选择与提取特征空间的维数优化过程⇒传感器特征形成特征选择与提取分类器⇒⇒⎯⎯⎯→决策→→→传感器特征形成特征选择与提取分类器⎯→⎯⎯→⎯⎯→⎯321Y Y Y ⎯→⎯⎯→⎯21X X ⎯⎯⎯→决策含有特征选择和提取的模式分类问题框图特征选择/提取降维过程信号6.2 类别可分性判据d D C ⇒特征选择/提取的任务:从D 个特征中选择出d个特征组合哪种组合最好准则衡量⇒找出:分类器错误率最小的那组特征(/)e i P p x ω⎧⎧⎪⎨⎨⎩⎪⎩计算理论上正确最有效的特征未知实际有困难希望找出一些使用的标准以衡量各类之间的可分性希望可分性准则满足下列几条要求:(1)与错误概率(或错误率上下界)有单调关系,这使取极值时其分类错误率也较小。
(2)度量特性:0, , 0, , ij ij ij jiij ij J i j J i j J J J i j J >≠===⎧⎨⎩当时不同类当时同类其中是第类和第类的可分性准则函数,类内分离度小越大,两类的分离程度就越大类间分离度大(3)单调性:加入新的特征时,准则函数不减小。
模式特征的提取与选择

2 类别可分性判据
模式特征的提取与选择
基于后验概率的可分性判据
原理:选择使后验熵最小的那些特征 用于分类识别。
JБайду номын сангаас=Ex[-Sp(wi|x)logp(wi|x)]
JHs=Ex[Hs(p1,p2,…,pc)]
Hs=(21-s-1)[S(pis)-1] pi=p(wi|x)
模式特征的提取与选择
3 基于可分性判据进行变换的特征提取
特征选择:
从一组特征中挑选出一些最有效的特 征以达到降低特征空间维数的目的,这 个过程叫特征选择.
有时特征提取和选择并不是截然分开 的,在具体的模式识别问题中也可以 结合使用。
2 类别可分性判据
模式特征的提取与选择
把一个高维空间变换为低维空间的映 射有很多,哪种映射对分类最有利, 需要一个比较标准,即类别可分性判 据,这些判据应能反映各类在特征空 间中的分布情况,应能刻画各特征分 量在分类识别中的重要性或贡献。
在实际问题中,常常不容易找到那些 最重要的特征,或受条件限制不能对 它们进行测量,这就使特征选择和提 取的任务复杂化而成为构造模式识别 系统最困难的任务之一。
特征提取和选择的基本任务是如何从 许多特征中找出那些最易得且有效的 特征,从而实现特征空间维数的压缩.
1 概述
模式特征的提取与选择
虽然特征的提取和选择在模式识别中 占有重要地位,但迄今没有一般方法,大 多数的方法都是面向问题的.对于不同 的模式识别问题可以 有不同的特征提
基于几何距离的可分性判据
J1=Tr[Sw-1SB] J2=Tr[SB]/Tr[Sw] J3=Tr[Sw-1ST] J4=|ST|/|SW|=|Sw-1ST|
上述各种判据存在关联性,其中一些 判据如J1,J4具有非奇异线性变换不变 性.它们本质相似,但性能可能不同.
模式识别之特征选择和提取

p( X | i ) 与 p( X | j ) 相差愈大, J ij 越大。
当 p( X | i ) p( X | j ) ,两类分布密度相同, Jij 0 。
(3)错误率分析中,两类概率密度曲线交叠越少,错误率越小。
p(x | i )P(i )
p(x | 2 )P(2 )
p(x | 1 )P(1 )
Jd
1 2
c i 1
P(i
)
c j 1
P(
j
)
1 ni n
j
ni k 1
nj l 1
D2
(
X
i k
,
X
j l
)
(5-8)
式中, P(ωi ) 和 P( j ) :i 和 ω j 类先验概率;c:类别数;
X
i k
:
i
类的第
k
个样本;
X
j l
:
ω
j
类的第
l
个样本;
ni 和 n j :i 和 ω j 类的样本数;
② 特征选择:将坐标系按逆时针方向做一旋转变化,或物体按 顺时针方向变,并合适平移等。根据物体在 轴上投影旳x坐2' 标值 旳正负可区别两个物体。
——特征提取,一般用数学旳措施进行压缩。
5.2 类别可分性测度
类别可分性测度:衡量类别间可分性旳尺度。
类别可
分性测 度
空间分布:类内距离和类间距离 随机模式向量:类概率密度函数 错误率 与错误率有关旳距离
D2
(
X
i k
,
X
j l
)
:
X
i k
和
X
j l
间欧氏距离的平方。
特征的选择与提取(武汉大学,王文伟老师)

三大类特征:物理、结构和数学特征
物理和结构特征:易于为人的直觉感知,但有 时难于定量描述,因而不易用于机器判别。 数学特征:易于用机器定量描述和判别,如基 于统计的特征。
第六章 特征的选择与提取
3
特征的形成
特征形成 (acquisition): (acquisition): 信号获取或测量→ 信号获取或测量→原始测量 原始特征 实例: 数字图象中的各像素灰度值 人体的各种生理指标 原始特征分析: 原始测量不能反映对象本质
p(x | ωi ) I ij (x ) = E lij (x ) = ∫ p( x | ωi ) ln dx x p(x | ω j )
正态分布: if ωi ~ N (µi , Σi ), ω j ~ N (µ j , Σ j ), Σi = Σ j = Σ
J D ( x ) = ( µ i − µ j ) T Σ −1 ( µ i − µ j )
第六章 特征的选择与提取
7
基于距离的可分性判据
类间可分性:=所有样本间的平均距离:
c 1 c 1 J d (x ) = ∑ Pi ∑ Pj 2 i =1 j =1 ni n j
可分性 判据
δ (x (ki ) , x (l j ) ) ∑∑
k =1 l =1
ni
nj
(8-1) squared Euclidian
电子信息学院
第六章 特征的选择与提取
王文伟 Wang Wenwei, Dr.-Ing. Tel: 687-78652 Email: wwwang@ Web: /sites/ced/pr/
电子信息学院 6.1 引言
Table of Contents
J p (x ) = ∫ g [ p(x | ω1 ), p( x | ω2 ), P , P2 ]dx 1
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章 特征选择和提取
• 特征选择和提取是构造模式识别系统时的一 个重要课题
– 在很多实际问题中,往往不容易找到那些最重要 的特征,或受客观条件的限制,不能对它们进行 有效的测量;
– 因此在测量时,由于人们心理上的作用,只要条 件许可总希望把特征取得多一些;
– 另外,由于客观上的需要,为了突出某些有用信 息,抑制无用信息,有意加上一些比值、指数或 对数等组合计算特征;
征。
• 注:这里计算的散布矩阵不受模式分布形式的 限制,但需要有足够数量的模式ω2和ω3, 其先验概率相等,求Sw和Sb ω1:{(1 0)T, (2 0) T, (1 1) T} ω2:{(-1 0)T, (0 1) T, (-1 1) T} ω3:{(-1 -1)T, (0 -1) T, (0 -2) T}
• 其目的都是为了在尽可能保留识别信息的前 提下,降低特征空间的维数,已达到有效的 分类。
第五章 特征选择和提取
• 以细胞自动识别为例
– 通过图像输入得到一批包括正常细胞和异常细胞 的图像,我们的任务是根据这些图像区分哪些细 胞是正常的,哪些细胞是异常的;
– 首先找出一组能代表细胞性质的特征,为此可计 算
– 一种“穷举”办法:对每种选法都用训练
样本试分类一下,测出其正确分类率,然
后做出性能最好的选择,此时需要试探的
特征子集的种类达到
种,非常耗时。
– 需寻找一种简便的可分性准则,间接判断 每一种子集的优劣。
• 对于独立特征的选择准则 • 一般特征的散布矩阵准则
5.2 特征选择
• 对于独立特征的选择准则
5.3 离散K-L变换
• 全称:Karhunen-Loeve变换(卡洛南-洛伊变换) • 前面讨论的特征选择是在一定准则下,从n个特征中
选出k个来反映原有模式。 • 这种简单删掉某n-k个特征的做法并不十分理想,因
– 类别可分性准则应具有这样的特点,即不 同类别模式特征的均值向量之间的距离应 最大,而属于同一类的模式特征,其方差 之和应最小。
– 假设各原始特征测量值是统计独立的,此 时,只需对训练样本的n个测量值独立地进 行分析,从中选出m个最好的作为分类特征 即可。
• 例:对于i和j两类训练样本的特征选择
5.2 特征选择
– 如果将数目很多的测量值不做分析,全部直接用 作分类特征,不但耗时,而且会影响到分类的效 果,产生“特征维数灾难”问题。
第五章 特征选择和提取
• 为了设计出效果好的分类器,通常需要对原 始的测量值集合进行分析,经过选择或变换 处理,组成有效的识别特征;
• 在保证一定分类精度的前提下,减少特征维 数,即进行“降维”处理,使分类器实现快 速、准确和高效的分类。
5.2 特征选择
• 设有n个可用作分类的测量值,为了在 不降低(或尽量不降低)分类精度的前 提下,减小特征空间的维数以减少计算 量,需从中直接选出m个作为分类的特 征。
• 问题:在n个测量值中选出哪一些作为 分类特征,使其具有最小的分类错误?
5.2 特征选择
• 从n个测量值中选出m个特征,一共有 中可能的选法。
– 另一种方式是用映射(或称变换)的方法 把原始特征变换为较少的特征,称之为特 征提取。
5.1 模式类别可分性的测度
• 距离和散布矩阵
– 点到点之间的距离 – 点到点集之间的距离
– 类内距离
5.1 模式类别可分性的测度
• 距离和散布矩阵
– 类内散布矩阵 – 类间距离和类间散布矩阵 – 多类模式集散布矩阵
第五章 特征选择和提取
第五章 特征选择和提取
• 特征选择和提取是模式识别中的一个关 键问题
– 前面讨论分类器设计的时候,一直假定已 给出了特征向量维数确定的样本集,其中 各样本的每一维都是该样本的一个特征;
– 这些特征的选择是很重要的,它强烈地影 响到分类器的设计及其性能;
– 假若对不同的类别,这些特征的差别很大, 则比较容易设计出具有较好性能的分类器。
– 因此,假若类概率密度函数不是或不近似正态分布,均值和 方差就不足以用来估计类别的可分性,此时该准则函数不完 全适用。
5.2 特征选择
• 一般特征的散布矩阵准则
– 类内、类间的散布矩阵Sw和Sb – 类间离散度越大且类内离散度越小,可分
性越好。 – 散布矩阵准则J1和J2形式 – 使J1或J2最大的子集可作为所选择的分类特
– 从通常的模式识别教学经验看,在讨论分 类器设计之后讲述特征选择和提取,更有 利于加深对该问题的理解。
第五章 特征选择和提取
• 所谓特征选择,就是从n个度量值集合{x1, x2,…, xn}中,按某一准则选取出供分类用的子 集,作为降维(m维,m<n)的分类特征;
• 所谓特征提取,就是使(x1, x2,…, xn)通过某种 变换,产生m个特征(y1, y2,…, ym) (m<n) ,作 为新的分类特征(或称为二次特征);
• 细胞总面积 • 总光密度 • 胞核面积 • 核浆比 • 细胞形状 • 核内纹理 • ……
第五章 特征选择和提取
• 以细胞自动识别为例
– 这样产生出来的原始特征可能很多(几十 甚至几百个),或者说原始特征空间维数 很高,需要降低(或称压缩)维数以便分 类;
– 一种方式是从原始特征中挑选出一些最有 代表性的特征,称之为特征选择;
• 为达到上述目的,关键是所提供的识别特征 应具有很好的可分性,使分类器容易判别。 为此,需对特征进行选择。
– 应去掉模棱两可、不易判别的特征; – 所提供的特征不要重复,即去掉那些相关性强且
没有增加更多分类信息的特征。
第五章 特征选择和提取
• 说明
– 实际上,特征选择和提取这一任务应在设 计分类器之前进行;
• 讨论:上述基于距离测度的可分性准则,其适用范围 与模式特征的分布有关。
– 三种不同模式分布的情况
• (a) 中特征xk的分布有很好的可分性,通过它足以分离i和j两 种类别;
• (b) 中的特征分布有很大的重叠,单靠xk达不到较好的分类,需 要增加其它特征;
• (c) 中的i类特征xk的分布有两个最大值,虽然它与j的分布没 有重叠,但计算Gk约等于0,此时再利用Gk作为可分性准则已 不合适。