模式识别讲义-特征提取和特征选择
模式识别特征选择与提取
模式识别特征选择与提取(总8页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--模式识别特征选择与提取中国矿业大学计算机科学与技术学院电子信息科学系班级:信科11-1班,学号:08113545,姓名:褚钰博联系方法(QQ或手机):8,日期:2014 年 06月 10日摘要实际问题中常常需要维数约简,如人脸识别、图像检索等。
而特征选择和特征提取是两种最常用的维数约简方法。
特征选择是从某些事物中提取出本质性的功能、应用、优势等,而特征提取是对特征空间进行变换,将原始特征空间映射到低维空间中。
本文是对主成分分析和线性判别分析。
关键词:特征选择,特征提取,主成分分析,线性判别分析1.引言模式识别的主要任务是利用从样本中提取的特征,并将样本划分为相应的模式类别,获得好的分类性能。
而分类方法与分类器设计,都是在d(变量统一用斜体)维特征空间已经确定的前提下进行的。
因此讨论的分类器设计问题是一个选择什么准则、使用什么方法,将已确定的d维特征空间划分成决策域的问题。
对分类器设计方法的研究固然重要,但如何确定合适的特征空间是设计模式识别系统另一个十分重要,甚至更为关键的问题。
如果所选用的特征空间能使同类物体分布具有紧致性,即各类样本能分布在该特征空间中彼此分割开的区域内,这就为分类器设计成功提供良好的基础。
反之,如果不同类别的样本在该特征空间中混杂在一起,再好的设计方法也无法提高分类器的准确性。
本文要讨论的问题就是特征空间如何设计的问题。
基于主成分分析的特征选择算法的思想是建立在这样的基础上的:主成分分析方法将原始特征通过线性变换映射到新的低维空间时,获得的主成分是去了新的物理意义,难以理解,并且主成分是所有原始特征的线性组合。
所以将主成分分析与特征选择相结合,设计多种相似性度量准则,通过找到与主成分相关的关键特征或者删除冗余、不相关以及没有意义的特征,将主成分又重新映射到原始空间,来理解成主成分的实际意义。
模式识别特征的选择和提取
1. 模式最优表示特征的提取 假定有一n维向量x,希望能用m(< n) 个向量的线性组合来近似x,这m个向量来自 一组标准正交基{uj,j = 1,2,…,n}。 即把x近似表示为前m个基的组合:
~ x
= y1u1 + y2u2 + … + ymum
式中 yj = ujT x
写成矩阵形式, ~ x = Um y ( n × m,m × 1 ) → n × 1 y = UmT x ( m × n,n × 1 ) → m × 1
模式特征的产生过程一般包括以下步骤:
1.原始特征的形成:用仪表或传感器测量 出来的一些特征量,或通过计算得到的一些 特征(对波形和图象),称为原始特征、原 始测量或一次特征。
2.特征提取:原始特征的数量可能很 大,需要通过变换(映射)把高维特征空间 降到低维空间,这时的特征叫二次特征,它 们一般是原始特征的某种组合。 通过变换A: X Y,
下面的分析说明确实是这样。假定e是 Gi的标准特征向量,那么相应特征值λ 可以 表示为 c 1 T T T ( e R e ( 1 e R k e) λ = e Gie = i
c
k 1 k i
由于λ max≤1和相关矩阵的半正定性质, ∴上式括号中每一个二次项的特征值在0~1 之间,∴ 0≤λ ≤1。 而且λ 接近于1时要求eTRie→1,而 eTRke(k≠i)却→0,
和前面一样,令{uj,j = 1,2,…,n} 是观测空间的标准正交基。另x是任一观测 向量,x~是它的截尾表示形式, x~ = y1u1 + y2u2 + … + ymum 对于第i类,我们选择一组uj,它能使 第i类的均方误差最小, εi = Ei[|x-x~|2] =
模式识别讲义-特征提取和特征选择
完全可分:若p(x|ω1) ≠0时, p(x|ω2)=0;
完全不可分:对任意x,都有 p(x|ω1) = p(x|ω2);
二、距离
(2)概率距离
若任何函数Jp g[ p(x | 1), p(x | 2), P1, P2]dx满足以下条件:
a、Jp 0; b、当两类完全可分时 Jp取得最大值; c、当两类完全不可分是 Jp为0;
总错误率P(e) P(x R2 1) P(x R3 1) ... P(x RM 1)P(1) P(x R1 2 ) P(x R3 2 ) ... P(x RM 2 )P(2 ) ... P(x R1 M ) P(x R2 M ) ... P(x RM 1 M )P(M )
X
p(x | j)
Xp(x | i)来自 [ p(x | i) p(x | j)]ln p(x | i) dx
X
p(x | j)
三、特征提取算法
1、使用类内类间距离进行特征提取类内类间距离
Jd=Jw+Jb=tr(Sw+Sb)
其中Jw是类内平均距离,Jb是类间平均距离 通常给定一个训练集后,Jd是固定的,因此,在特征
模式识别 第八讲 特征选择与特征提取
回顾:
贝叶斯分类的原理 最小错误率贝叶斯分类 最小风险贝叶斯分类 最大似然比贝叶斯分类 正态分布情况下的贝叶斯分类
分类器的错误率
1、分类器的错误率
•错误率是评价一个分类器的重要指标 •错误率受分类决策方法、训练集、测试集和偶然因 素的影响 •分类错误是一个概率事件,错误率应由概率方式表 达
各特征向量之间的距离 的平均值,称为类内类 间距离:
c
模式识别(7-2)特征的选择与提取
5 4
,
54
试用K-L变换作一维数据压缩。
思路:1)求总体均值向量;2)求产生矩阵ψ ; 3)求产生矩阵的特征值λi 及特征向量 i ;
4)按λi排序,确定变换矩阵W; 5)利用 y W T x 求新的一维样本。
K-L变换的一些典型应用
上面我们从数学的角度分析了K-L变换的 性质。归结起来,它消除了各分量之间的 相关性,因而用它来描述事物时,可以减 少描述量的冗余性,做到用最经济有效的 方法描述事物。下面结合一些应用实例来 说明如何运用K-L变换的这一性质。
但是由于它的正交基函数族是从训练样本集中计算出 来的,因此并不存在一种对任何数据都适用的K-L变 换基,一般的作法是先用一组训练数据计算出K-L变 换基,然后用这组基来分析其它数据。
K-L变换的性质
K-L变换的性质
K-L变换的性质
K-L变换的产生矩阵
当样本所属类别未知时:
x的相关函数矩阵 x的协方差矩阵
§7.3 基于K-L展开式的特征提取
图6-3b
图6-3(b)中的向量A与B在一个二维空间定义,它们两者分别含有成 分为(a1,a2)与(b1,b2),a1与b1是两者的同一种成分,a2与b2则是 另一种成分。故它们的点积定义为a1b1+a2b2,在这种条件下就不 需要积分,而只是简单求和。
§7.3 基于K-L展开式的特征提取
K-L变换的一些典型应用
4.人脸图象合成
用K-L变换构造参数模型的另一种典型用途是人 脸图象合成。从下面的例子中可以看出,有目 的地控制各个分量的比例,也就是通过调整参 数向量。可以将一幅不带表情图象改变成带各 种表情的图象,称为人脸表情图象合成。
为了对复杂事物进行经济有效的描述,我们希望将其分解 成相互独立的成分,譬如我们分析其快速变化的成分时, 就希望它只不再混杂其它成分。
《模式识别》PPT课件
有两个极端的特征选择算法,一个是单独选择法,另一个是穷举选择法。
1. 单独选择法 就是把n个特征每个特征单独使用时的可分性准则函数值都算出来,按准则
函数值从大到小排序,如 J(x1)>J(x2)>…>J(xm)>…J(xn)
然后,取使J较大的前m个特征作为选择结果。 问题:这样得到的m个特征是否就是一个最优的特征组呢?
1 Pe 1 c
另一个极端情况是,如果能有一组特征使得
此时x划归 P类(,其i /错x误)概率1为, 0。且P( j / x) 0 , j i
可见后验概率越集中,错误概率就越小。后验概率分布越平缓(接近均匀分布)
,则分类错误概率就越i 大。
为了衡量后验概率分布的集中程度,需要规定一个定量准则,我们可以借助于 信息论中关于熵的概念。
,
的函数。可定义如下形式的广义熵:
P(1 / x) P(2 / x)
P(c / x)
,
,…
式中,
是一个实的正参数,
。
J
a C
[
P
(1
/
x),
P ( 2
/
x),,
P ( c
/
x)]
c
(21a 1)1[ P a (i / x) 1] i 1
a
a1
不同的 spital法则有
a
a值可以得到不同的熵分离度量,例如当
8.1.1 基于距离的可分性准则 各类样本之间的距离越大,则类别可分
性越大。因此,可以用各类样本之间的距离的平 均值作为可分性准则
Jd
1 2
c
Pi
i 1
c
模式识别7-特征选择和提取
了识别对象的某些特征,简单地删去某些特征可能会
丢失较多的有用信息。
• 如果将原来的特征做正交变换,获得的每个数据都是
原来n个数据的线性组合,然后从新的数据中选出少
数几个,使其尽可能多地反映各类模式之间的差异,
而这些特征间又尽可能相互独立,则比单纯的选择方
➢遗传算法
单独最优特征组合
特征
选择
计算各特征单独使用时的可分性判据J并加
以排队,取前d个作为选择结果
不一定是最优结果
当可分性判据对各特征具有(广义)可加性,
该方法可以选出一组最优的特征来,例:
➢各类具有正态分布
➢各特征统计独立
➢可分性判据基于Mahalanobis距离
d
J ij ( x1 , x2 ,..., xd ) J ij ( xk ) J D (x) (μi μ j )T 1(μi μ j )
k 1
顺序前进法
特征
选择
自下而上搜索方法。
每次从未入选的特征中选择一个特征,使得
它与已入选的特征组合在一起时所得的J值
为最大,直至特征数增加到d为止。
该方法考虑了所选特征与已入选特征之间的
相关性。
顺序后退法
特征
选择
该方法根据特征子集的分类表现来选择特征
搜索特征子集:从全体特征开始,每次剔除
➢ 当特征独立时有可加性:
k 1
➢ 单调性:
J ij ( x1 , x2 ,..., xd ) J ij ( x1 , x2 ,..., xd , xd 1 )
常见类别可分离性判据:基于距离、概率分布、熵
函数
模式识别(7-1)特征的选择与提取
原始测量:(正常与异常)细胞的数字图像
原始特征(特征的形成,找到一组代表细胞性质的 特征):细胞面积,胞核面积,形状系数,光密度, 核内纹理,和浆比
压缩特征:原始特征的维数仍很高,需压缩以便于 分类
特征选择:挑选最有分类信息的特征 特征提取:数学变换
傅立叶变换或小波变换 用PCA方法作特征压缩
基于距离的可分性判据
计算所有样本平均距离作为判据 Jd (x) tr(Sw Sb )
其中“tr”表示矩阵的迹(对角线元素的和)。
各类特征向量之间的平均距离可写成:
1
Jd (x) 2
c
Pi
i 1
c
Pj
j 1
1 nin j
ni n j
(xk(i) , xl( j) )
k 1 l 1
其中Pi、Pj 分别表示各类的先验概率,ni、nj分别是第i与j
基于距离的可分性判据
如果推广至c类别情况,同时考虑各类的先验概率Pi 不等,则可将上列各式表示成:
c
Sb = Pi(mi m)(mi m)T i 1 c
Sw = PiEi[(mi m)(mi m)T ] i 1
其中, m 为总均值向量,Pi表示各类别的先验
概率,Ei表示i类的期望符号。
基于距离的可分性判据
Fisher准则时曾用过两个描述离散度的矩阵。一个 是类间离散矩阵Sb
Sb = (m1 - m2 )(m1 - m2 )T
另一个是类内离散度矩阵SW
Si = (x - mi )(x - mi )T , xX i
Sw = S1 + S2
i 1, 2
以上式子是针对两类别情况的,如果推广至c 类别情况?
)T (x(ki)
模式识别第六讲 特征提取(介绍)v1.0
解得特征根为 1 5.83 , 2 2.00 ,3 0.17
0.383 U1 0.924
0.000
0 U 2 0
1
0.924 U3 0.383
0.000
第一个主成分的贡献率为5.83/(5.83+2.00+0.17)=72.875%,尽 管第一个主成分的贡献率并不小,但应该取两个主成分。97.88%
u
pp
则实对称阵 A 属于不同特征根所对应的特征向 量是正交的,UU UU I
PCA的一些性质
(3)均值 E(UT x) UT M (4)方差为所有特征根之和
pห้องสมุดไป่ตู้
Var(Fi ) 1 2
p
12
2 2
2 p
i 1
说明主成分分析把P个随机变量的总方差分解成为
在普通特征上MKL表现有限
结论:特征更重要(?)
特征的数量越多越好?
一般而言,特征越多,给出信息就越多,识别准确性会得到提升; 但特征多,计算复杂度增加,探索的空间大,可以用来训练的数据在 每个特征上就会稀疏。 结论:不一定特征越多越好!需要有多少个特征,需要学习确定。
目前结论:关于训练样本的数量
PCA图形几何解释(一)
为了方便,我们在二维空间中讨论主成分的几何意义。 设 有n个样本,每个样本有两个观测变量xl和x2,在由变量xl和x2 所确定的二维平面中,n个样本点所散布的情况如椭圆状。由 图可以看出这n个样本点无论是沿着xl 轴方向或x2轴方向都具 有较大的离散性,其离散的程度可以分别用观测变量xl 的方差 和x2 的方差定量地表示。显然,如果只考虑xl和x2 中的任何一 个,那么包含在原始数据中的信息将会有较大的损失。
模式识别-5--特征选择与提取
1 Cj 1 Iij = ln + tr[Ci (C−1 −Ci−1)] j 2 Ci 2
当Ci和Cj之间越相近则散度越小。
1 −1 −1 Jij = tr[ Ci −Cj )(Cj −Ci )] ( 2
散度的性质 从上面的定义我们可以看出散度Jij具有如下性质: (i) Jij=Jji, (ii) 当ωi和ωj的分布不同时,Jij>0 (iii)当ωi和ωj的分布完全同时,Jij=0 (iv) 在模式特征的各个分量都相互独立的情况下,有:
Sb2 = (m −m2 )(m −m2 )t 1 1
当三类或者更多的时候就引入先验概率作为加权 :
Sb2 = (m − m2 )(m − m2 )t 表示1和2两类模式的类间散布矩阵; 1 1
Sb1 = ∑P(ω )(m − m )(m − m )t i i 0 i 0
其中 m = E{ x} = ∑P(ωi )m为多类模式(这里共c类)分布 0 i 总体的均值向量 i=1 多类模式集散布矩阵 多类的类内散布矩阵,可用各类类内散布矩阵的先验加权表示:
该式子是散度的一般表达式。 注:当ωi和ωj的分布是一些特殊的表达式子,那么对数似然比 函数和散度可以得到一些很简单形式。 当ωi和ωj服从正态分布, 散度为:
p(x | ωi ) Jij = I ji + Iij = ∫ [ p(x | ωi ) − p(x | ωj )]ln dx x p(x | ωj )
3. 特征选择和提取是构造模式识别系统的一重要课题
在很多实际问题中,往往不容易找到那些最重要的特征,或 受客观条件的限制,不能对它们进行有效的测量; 因此在测量时,由于人们心理上的作用,只要条件许可总希 望把特征取得多一些; 另外,由于客观上的需要,为了突出某些有用信息,抑制无 用信息,有意加上一些比值、指数或对数等组合计算特征 (在数据上作一些处理); 如果将数目很多的测量值不做分析,全部直接用作分类特征, 不但耗时,而且会影响到分类的效果,产生“特征维数灾难” 问题。 为了设计出效果好的分类器,通常需要对原始的测量值集合 进行分析,经过选择或变换处理,组成有效的识别特征; 在保证一定分类精度的前提下,减少特征维数,即进行“降 维”处理,使分类器实现快速、准确和高效的分类。
模式识别之特征选择和提取
p( X | i ) 与 p( X | j ) 相差愈大, J ij 越大。
当 p( X | i ) p( X | j ) ,两类分布密度相同, Jij 0 。
(3)错误率分析中,两类概率密度曲线交叠越少,错误率越小。
p(x | i )P(i )
p(x | 2 )P(2 )
p(x | 1 )P(1 )
Jd
1 2
c i 1
P(i
)
c j 1
P(
j
)
1 ni n
j
ni k 1
nj l 1
D2
(
X
i k
,
X
j l
)
(5-8)
式中, P(ωi ) 和 P( j ) :i 和 ω j 类先验概率;c:类别数;
X
i k
:
i
类的第
k
个样本;
X
j l
:
ω
j
类的第
l
个样本;
ni 和 n j :i 和 ω j 类的样本数;
② 特征选择:将坐标系按逆时针方向做一旋转变化,或物体按 顺时针方向变,并合适平移等。根据物体在 轴上投影旳x坐2' 标值 旳正负可区别两个物体。
——特征提取,一般用数学旳措施进行压缩。
5.2 类别可分性测度
类别可分性测度:衡量类别间可分性旳尺度。
类别可
分性测 度
空间分布:类内距离和类间距离 随机模式向量:类概率密度函数 错误率 与错误率有关旳距离
D2
(
X
i k
,
X
j l
)
:
X
i k
和
X
j l
间欧氏距离的平方。
清华大学模式识别课件-08_第8章特征提取和特征选择教材
8.1.1. 一些基本概念
在一些书籍和文献中,使用“特征提取” , “特征选择”等术语时的含义不完全相同。 例如, “特征提取”在有的文献中专指特征的形成过程,有的则指从形成、经选择或变换直 到得出有效特征这一全过程。在实际应用中,通过对对象进行测量,可以得到对象的一种描 述,即用测量空间中的一个点来代表这个对象。例如,通过摄像机可以把一个物体转换为一 个二维灰度阵列,即一幅图像。在一些识别任务中,不直接在测量空间中进行分类器设计。 这一方面是因为测量空间的维数很高(一个 256×256 灰度图像相当于 256×256 维测量空间 中的一个点),不适宜于分类器的设计。更重要的是这样一种描述并不能直接反映对象的本 质,并且它随摄像机位置、光照等因素的变化而变化。因此为了进行分类器设计,需要把图 像从测量空间变换到维数大大减少的特征空间, 被研究的图像或现象在这个特征空间中就由 一个特征向量来表示。 实际上这样一种变换常常分成几个步骤进行,因此在一些文献中还采用特征提取和特 征选择这样的术语。为了方便起见,我们对几个常用的有关名词作些说明。 特征形成:根据被识别的对象产生出一组基本特征,它可以是计算出来的(当识别对象 是波形或数字图像时),也可以是用仪表或传感器测量出来的(当识别对象是实物或某种过程 时),这样产生出来的特征叫做原始特征,有些书中用原始测量(或一次测量,或观察)这一名 词,我们认为在很多情况下有些原始测量就可以作为原始特征,而有些情况则不然,例如识 别对象是数字图像时,原始测量就是各点灰度值,但有时候我们不用各点灰度作为特征,而 是需要经过计算产生一组原始特征。 特征提取:原始特征的数量可能很大,或者说样本是处于一个高维空间中,通过映射 (或变换)的方法可以用低维空间来表示样本,这个过程叫特征提取。映射后的特征叫二次特 征, 它们是原始特征的某种组合(通常是线性组合)。 所谓特征提取在广义上就是指一种变换。 若 Y 是测量空间,X 是特征空间,则变换 A:Y→X 就叫做特征提取器。 特征选择:从一组特征中挑选出一些最有效的特征以达到降低特征空间维数的目的, 这个过程叫特征选择。 以细胞自动识别为例,通过图像输入得到一批包括正常及异常细胞的数字图像,我们 的任务是根据这些图像区分哪些细胞是正常的, 哪些是异常的。 首先要找出一组能代表细胞 性质的特征。为此可以计算细胞总面积、总光密度、胞核面积、核浆比、细胞形状、核内纹 理等,这样可得到很多原始特征,这一过程就是特征的形成。这样产生出来的原始特征可能 很多(例如几十甚至几百个),或者说原始特征空间维数很高,需要压缩维数以便分类。一种 方式是用变换的方法把原始特征变换为较少的新特征, 这就是特征提取。 另一种方式就是从 原始特征中去挑选出一些最有代表性的特征来, 这就是特征选择。 最简单的特征选择方法是
模式识别讲义-特征提取和特征选择38页PPT
2、要冒一次险!整个生命就是一场冒险。走得最远的人,常是愿意 去做,并愿意去冒险的人。“稳妥”之船,从未能从岸边走远。-戴尔咖啡,喝起来是苦涩的,回味起来却有 久久不会退去的余香。
模式识别讲义-特征提取和特征选择 4、守业的最好办法就是不断的发展。 5、当爱不能完美,我宁愿选择无悔,不管来生多么美丽,我不愿失 去今生对你的记忆,我不求天长地久的美景,我只要生生世世的轮 回里有你。
55、 为 中 华 之 崛起而 读书。 ——周 恩来
谢谢!
51、 天 下 之 事 常成 于困约 ,而败 于奢靡 。——陆 游 52、 生 命 不 等 于是呼 吸,生 命是活 动。——卢 梭
53、 伟 大 的 事 业,需 要决心 ,能力 ,组织 和责任 感。 ——易 卜 生 54、 唯 书 籍 不 朽。——乔 特
模式识别 第六章 特征提取与选择
(三) 类内及总体的均值矢量
类的均值矢量:
m (i)
1 Ni
Ni
xk
(i
)
k 1
i 1,2,, c
各类模式的总体均值矢量 m c Pi m (i)
i 1
Pi 为相应类的先验概率,当用统计量代替先验概 率时,总体均值矢量可表示为:
m
c i 1
Pi
只考虑连续的情况:
因为f(0)=f(1) = 0 ,当 0 s 1 时
f ’(s) = a-b-asb1-s (ln a - ln b)=0 a=b
从而有 f(s)=0 a=b ,由此有:
JC=0 p(x |1) p(x | 2 )
28
Jc 性质(5)证明:
设P(e)为最小误分概率,则:
由上式进一步可得:
P0 (e) P(1)s P( 2 )1s
p(
x
1
)
s
p(
x
2
)1
s
d
x
W
P(1)s P( 2 )1s exp JC
29
6.2.2基于类的概率密度函数的可分性判据
由JB和JC的定义知:JB=JC(1/2)
对p(两x类都1)是~正N态(分m布(1)情, C况1:)
)
)
T
C1
C2 2
1
(m (1)
m (2) )
p( x
2)
~
N (m (2)
, C2 )
JC
1 s(1 s)(m (1) 2
m (2) )T
模式识别 第6章 特征的选择和提取
– 当特征独立时有可加性:Jij (x1, x2 ,..., xd ) Jij (xk )
– 单调性: Jij (x1, x2 ,..., xd ) Jij (x1, x2 ,..., xdk,1xd 1 ) 常见类别可分离性判据:基于距离、概率分布、 熵函数
© 李春权
模式识别
哈尔滨医科大学
200192
‹#›
经典特征选择算法
许多特征选择算法力求解决搜索问题,经典算法 有 – 单独最优特征组合法、后退法、前进法(重点) – 分支定界法 – 模拟退火法(重点) – Tabu禁忌搜索法 – 遗传算法(重点)
© 李春权
模式识别
哈尔滨医科大学
生物信息科学与技术学院
200192
‹#›
穷举法
由原始的D维空间降到d维空间问题。 一共有q=CDd种特征组合结果。
© 李春权
模式识别
哈尔滨医科大学
生物信息科学与技术学院
200192
‹#›
WKEA特征选择
© 李春权
模式识别
哈尔滨医科大学
生物信息科学与技术学院
200192
‹#›
© 李春权
模式识别
哈尔滨医科大学
生物信息科学与技术学院
200192
‹#›
© 李春权
模式识别
哈尔滨医科大学
生物信息科学与技术学院
200192
© 李春权
模式识别
哈尔滨医科大学
生物信息科学与技术学院
200192
‹#›
y wT x, w为d r矩阵, x为d维
此时,J 2
(w)
tr[S
* 1 w
Sb*
]
tr[(wT
模式识别 第6章 特征选择与提取
第六章特征选择与提取6.1 引言6.2 类别可分性判据6.3 特征选择6.4 特征提取6.5 图象的特征提取6.1 引言基本任务:如何从多特征中找出那些最有效的特征或:获取一组”少而精”的分类特征压缩⇒⇒研究如何高维特征空间低维特征空间特征分为三类:(1)物理的; (2)结构的; (3)数学的本章研究、讨论:学习样本选择并提取数学特征⎧⎨⎩⎧⎪⎪⎪⎨⎪⎧⎪⎨⎪⎩⎩物理人们直观识别对象特征感觉器官接受结构统计平均值相关系数机器自动识别对象:数学特征本征值协方差阵本征向量基本概念1.特征形成:根据被识别的对象产生一组原始特征⎧⎨⎩传感器的直接测量值模式空间计算值(波形、数字图象)例如:细胞识别⎧⎫⎪⎪⎪⎪⎯⎯⎯→⎨⎬⎪⎪⎪⎪⎩⎭计算通过图象输入得到细胞的数字图象细胞面积总光密度原始特征胞核面积核浆比⎧⎨⇒⎩专家经验和知识方法数学方法筛选比较Y XT E E T ⇒::特征提取值(变换)器3.特征提取:通过映射或变换的方法,把模式空间的高维特征向量变成特征空间的低维特征。
2.特征选择:从一组特征中挑选出一些最有效的特征(过程)。
⎧⎪⎨⎪⎩特征评估标准解决特征选择与提取特征空间的维数优化过程⇒传感器特征形成特征选择与提取分类器⇒⇒⎯⎯⎯→决策→→→传感器特征形成特征选择与提取分类器⎯→⎯⎯→⎯⎯→⎯321Y Y Y ⎯→⎯⎯→⎯21X X ⎯⎯⎯→决策含有特征选择和提取的模式分类问题框图特征选择/提取降维过程信号6.2 类别可分性判据d D C ⇒特征选择/提取的任务:从D 个特征中选择出d个特征组合哪种组合最好准则衡量⇒找出:分类器错误率最小的那组特征(/)e i P p x ω⎧⎧⎪⎨⎨⎩⎪⎩计算理论上正确最有效的特征未知实际有困难希望找出一些使用的标准以衡量各类之间的可分性希望可分性准则满足下列几条要求:(1)与错误概率(或错误率上下界)有单调关系,这使取极值时其分类错误率也较小。
(2)度量特性:0, , 0, , ij ij ij jiij ij J i j J i j J J J i j J >≠===⎧⎨⎩当时不同类当时同类其中是第类和第类的可分性准则函数,类内分离度小越大,两类的分离程度就越大类间分离度大(3)单调性:加入新的特征时,准则函数不减小。
特征提取与特征选择
特征提取与特征选择
1.特征提取
特征提取,通常称为特征工程,是指从数据集中提取有助于建模、分析过程和预测结果的特征,是机器学习和深度学习的基础,是实现有效机器学习和深度学习模型的关键环节。
特征提取的主要目的是从原始数据中提取出有价值的特征,从而提升模型的精确度。
特征提取的方法主要有:
1)非监督学习:非监督学习通过聚类、主成分分析(PCA)、奇异值分解、独立成分分析(ICA)等方法从原始数据中提取出有价值的特征。
2)监督学习:监督学习可以通过特征选择,递归特征消除(RFE),基于权重的统计特征选择和基于函数的特征选择等方法从原始数据中提取出有价值的特征。
2.特征选择
特征选择是指从原始数据中选择具有预测性的特征,以便提高模型有效性。
特征选择有助于减少过拟合,进而提高模型准确性。
特征选择的方法主要有:
1)特征选择:特征选择可以使用过滤法(Filter),包括单变量统计,相关性,卡方,信息增益等方法,也可以使用包裹法(Wrapper),包括递归特征消除(RFE),贪心,粒子群优化等方法,还可以使用嵌入法(Embedded),包括 L1正则化,L2正则化等方法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5、模式类别可分性的测度
(1)特征提取和特征选择准则
错误率是最佳的特征提取和特征选择准则函数,但难 以计算。
可用的类别可分性测度标准应满足以下要求:
与错误率有单调关系 d
当特征独立时具有可加性 Jij(x1,x2,...,xd) Jij(xk)
具有标量测度特性 对特征具单调性
D=5,d=2
开始
(2)搜索树的构造:
•根节点为0级,包含D个
特征; •每一级舍弃1个特征;
x1
x2 x3
•下一级在上一级基础上继
续舍弃特征; •整个搜索树共有D-d级
X
p(x | j)
X
p(x | i)
[ p(x | i) p(x | j)]ln p(x | i) dx
X
p(x | j)
三、特征提取算法
1、使用类内类间距离进行特征提取类内类间距离
Jd=Jw+Jb=tr(Sw+Sb)
其中Jw是类内平均距离,Jb是类间平均距离 通常给定一个训练集后,Jd是固定的,因此,在特征
Jij 0,当i j时
Jij
0,当i
j时
Jij
Jji
k 1
Jij(x1,x2,...,xd) Jij(x1,x2,...,xd,xd+1)
二、距离
(1)类内类间距离
设一个分类问题共有 c类,
令xk(i),xl( j)分别为i类及 j类中的D维特征向量,
(xk(i),xl( j)) 为这两个向量间的距 离,则各类中
d
此时,J(2 W)= i i 1
例题
三、特征提取算法
2、使用概率距离进行特征提取
下面只对使用Chernoff概率距离进行介绍:
假设有D个原始特征:x [x1,x2,...,xD]T ,通过线性
变换后压缩为d个特征:y [y1,y2,...,yd]T , 其变换关系为: y W T x 再假设只分两类,且两类都是正态分布,
完全可分:若p(x|ω1) ≠0时, p(x|ω2)=0;
完全不可分:对任意x,都有 p(x|ω1) = p(x|ω2);
二、距离
(2)概率距离
若任何函数Jp g[ p(x | 1), p(x | 2), P1, P2]dx满足以下条件:
a、Jp 0; b、当两类完全可分时 Jp取得最大值; c、当两类完全不可分是 Jp为0;
第二类判错:P2 (e) P(x R1 2 ) R1 p(x 2 )dx
总错误率:P(e) P(1)P1(e) P(2 )P2 (e)
R2 P(1) p(x 1)dx R1 P(2 ) p(x 2 )dx(多维积分)
使错误率最小条件:P(1)P(x 1) P(2 )P(x 2 )
1 ni
ni
x(i) k
Байду номын сангаас
mi
T
x(i) k
mi
mi m T
mi m
i1
k 1
二、距离
(1)类内类间距离
令类内散布矩阵和类间 散布矩阵分别为
Sw
c
ni
Pi
1 ni
xk(i) mi T
xk(i) mi
i 1
k 1
Sb
c
Pi
则进行变换后,Chernoff概率距离为:
Jc(W
)
1 2
s(1
s)tr{W
T
M W[{1
s)WT
1W
sW
T
2W
]1}
1 2
ln
|
(1
s)W
T 1W
sW
T 2W
|
1 2
(1
s) ln
|W
T 1W
|
1 2
s
ln
|W
T 2W
|
式中M (2 1)(2 1)T
一、基本概念
3、特征提取
w
通过某种变换,将原始特征
x
2
ω
1
从高维空间映射到低维空间。 y1 T:ER=>ED
ω
w(y)
T为特征提取器,通常
y2
2
是某种正交变换。
4、特征选择
从一组特征中挑选出一些最有效的特征的过程。
J(F*)=min J(F),集合F包含d个特征,J()是准则函数
一、基本概念
•将过程中所有可能的组合情况组合成一棵搜索树;特征 数少的组合作为特征数多的组合的子节点;
•按特定路线遍历整个搜索树,计算所遇到的每个节点的 准则函数;
•如遇到某个节点的准则函数值比已得到的特征数更少的 节点的准则函数值还小,则放弃其下所有节点的计算;
3、分支定界算法 例:原始特征={x1,x2,x3,x4,x5}
mi
m
T
mi
m
i 1
则 Jd(x) trSw Sb tr(Sw) tr(Sb) Jw Jb
从分类器的性能来看, 我们希望Jw尽可能小, Jb尽可能大。
二、距离
(2)概率距离 类间的概率距离可用分布函数之间的距离来度量
p(x 1)
p(x 2 )
p(x 1)= p(x 2 )
1、穷举算法
从D个特征中选择最优的d个特征,可对所有可能的d 个特征组合计算其准则函数,寻找其最优值,从而得 到最佳特征组合。
问题: 若D=100,d=10,则计算次数为:
q CDd
D! 100! 1731030945 (D d )!d! (100 10)!10!
6440
基本不可计算。
则有 (xk(i),xl( j))=(xk(i)-xl( j))(T xk(i)-xl( j))
ni
用mi表示第i类样本集的均值向量:
mi
1 ni
x(i) k
k 1
c
用m表示所有各类样本集的总平均向量:m Pimi i 1
则
Jd(x)
c
Pi
模式识别 第八讲 特征选择与特征提取
内容
基本概念 距离定义 特征提取算法 特征选择算法
一 基本概念
复习 (1)特征:
■ 特征是从对应于一个模式类的所有信息中提取出 来的,可以用来进行模式识别的部分属性。
■ 特征可以是数值型的,也可以是非数值型的。 ■ 特征一定有确切的定义和表示方法。 (2)特征空间: ■ 特征空间中的每一个点(每一种取值),都代表
P(e)min
YT
P(2 )P(x
2 )dx
YT P(1)P(x 1)dx
若P(1 x) P(2 x),则x 1, 这时错误率为P(2 x).
P(e
x)
P( 2 P(1
x),当x 1 x),当x 2
最小错误率
3、多类贝叶斯分类中的错误率
总错误率P(e) P(x R2 1) P(x R3 1) ... P(x RM 1)P(1) P(x R1 2 ) P(x R3 2 ) ... P(x RM 2 )P(2 ) ... P(x R1 M ) P(x R2 M ) ... P(x RM 1 M )P(M )
M M
P(x Rj j ) P(i )(计算量很大)
i1 j1
ji
M
用平均正确分类概率:P(M ) P(x Ri i )P(i ) i 1
M
i 1
P(x
Ri
i )P(i )dx
错误率:P(e) 1 P(M ),计算相对简单。
四、特征选择算法
2、独立算法 分别计算D个特征单独使用时的准则函数,选
取最优的前d个特征作为最优特征。
问题: 除极特殊情况外,所得特征组合均不是最优特 征组合。
四、特征选择算法
3、分支定界算法
利用准则函数对特征数量的单调性,在穷举算法时可 跳过大量计算,是最优算法。
(1)算法原理:
•从原特征数D开始依次减少特征数,至到达所需特征数 d
•该方程在一般情况下无解析解,只有次优解析解。 •在Σ1=Σ2或μ1=μ2,有最优解析解。
四、特征选择算法
从n个特征中挑选出m个最有效的特征,这就是 特征选择的任务。
最直接的方法是根据专家的知识挑选那些对分 类最有影响的特征。
另一种是用数学方法进行筛选比较,找出最有 分类信息的特征。
四、特征选择算法
了一个模式。 ■ 特征空间中的一个区域,则代表了一个模式类。
特征:
颜色 形状
特征值:
颜色=1.24 形状=0.37
特征向量:
x=[x1,x2] =[颜色,形状]
特征空间
一、基本概念
1、好的分类器: 特征具有良好的可分性 特征不要重复,去掉相关性高的特征
2、特征提取和特征选择的目的 降低特征维数,减少信息冗余 提高特征对类别的分辨能力 寻找对分类最重要的特征
三、特征提取算法
1、使用类内类间距离进行特征提取 以准则函数J2为例,说明如何求得最优提取变换:
假设有D个原始特征:x [x1,x2,...,xD]T ,通过线性 变换后压缩为d个特征:y [y1,y2,...,yd]T , 其变换关系为: y W T x 令Sw,Sb为原始特征空间的散布矩阵, Sw *,Sb *为变换后特征空间的散布矩阵;