模式识别—特征选择与提取课件
模式识别讲义-特征提取和特征选择
完全可分:若p(x|ω1) ≠0时, p(x|ω2)=0;
完全不可分:对任意x,都有 p(x|ω1) = p(x|ω2);
二、距离
(2)概率距离
若任何函数Jp g[ p(x | 1), p(x | 2), P1, P2]dx满足以下条件:
a、Jp 0; b、当两类完全可分时 Jp取得最大值; c、当两类完全不可分是 Jp为0;
总错误率P(e) P(x R2 1) P(x R3 1) ... P(x RM 1)P(1) P(x R1 2 ) P(x R3 2 ) ... P(x RM 2 )P(2 ) ... P(x R1 M ) P(x R2 M ) ... P(x RM 1 M )P(M )
X
p(x | j)
Xp(x | i)来自 [ p(x | i) p(x | j)]ln p(x | i) dx
X
p(x | j)
三、特征提取算法
1、使用类内类间距离进行特征提取类内类间距离
Jd=Jw+Jb=tr(Sw+Sb)
其中Jw是类内平均距离,Jb是类间平均距离 通常给定一个训练集后,Jd是固定的,因此,在特征
模式识别 第八讲 特征选择与特征提取
回顾:
贝叶斯分类的原理 最小错误率贝叶斯分类 最小风险贝叶斯分类 最大似然比贝叶斯分类 正态分布情况下的贝叶斯分类
分类器的错误率
1、分类器的错误率
•错误率是评价一个分类器的重要指标 •错误率受分类决策方法、训练集、测试集和偶然因 素的影响 •分类错误是一个概率事件,错误率应由概率方式表 达
各特征向量之间的距离 的平均值,称为类内类 间距离:
c
模式识别(7-2)特征的选择与提取
5 4
,
54
试用K-L变换作一维数据压缩。
思路:1)求总体均值向量;2)求产生矩阵ψ ; 3)求产生矩阵的特征值λi 及特征向量 i ;
4)按λi排序,确定变换矩阵W; 5)利用 y W T x 求新的一维样本。
K-L变换的一些典型应用
上面我们从数学的角度分析了K-L变换的 性质。归结起来,它消除了各分量之间的 相关性,因而用它来描述事物时,可以减 少描述量的冗余性,做到用最经济有效的 方法描述事物。下面结合一些应用实例来 说明如何运用K-L变换的这一性质。
但是由于它的正交基函数族是从训练样本集中计算出 来的,因此并不存在一种对任何数据都适用的K-L变 换基,一般的作法是先用一组训练数据计算出K-L变 换基,然后用这组基来分析其它数据。
K-L变换的性质
K-L变换的性质
K-L变换的性质
K-L变换的产生矩阵
当样本所属类别未知时:
x的相关函数矩阵 x的协方差矩阵
§7.3 基于K-L展开式的特征提取
图6-3b
图6-3(b)中的向量A与B在一个二维空间定义,它们两者分别含有成 分为(a1,a2)与(b1,b2),a1与b1是两者的同一种成分,a2与b2则是 另一种成分。故它们的点积定义为a1b1+a2b2,在这种条件下就不 需要积分,而只是简单求和。
§7.3 基于K-L展开式的特征提取
K-L变换的一些典型应用
4.人脸图象合成
用K-L变换构造参数模型的另一种典型用途是人 脸图象合成。从下面的例子中可以看出,有目 的地控制各个分量的比例,也就是通过调整参 数向量。可以将一幅不带表情图象改变成带各 种表情的图象,称为人脸表情图象合成。
为了对复杂事物进行经济有效的描述,我们希望将其分解 成相互独立的成分,譬如我们分析其快速变化的成分时, 就希望它只不再混杂其它成分。
《模式识别》PPT课件
有两个极端的特征选择算法,一个是单独选择法,另一个是穷举选择法。
1. 单独选择法 就是把n个特征每个特征单独使用时的可分性准则函数值都算出来,按准则
函数值从大到小排序,如 J(x1)>J(x2)>…>J(xm)>…J(xn)
然后,取使J较大的前m个特征作为选择结果。 问题:这样得到的m个特征是否就是一个最优的特征组呢?
1 Pe 1 c
另一个极端情况是,如果能有一组特征使得
此时x划归 P类(,其i /错x误)概率1为, 0。且P( j / x) 0 , j i
可见后验概率越集中,错误概率就越小。后验概率分布越平缓(接近均匀分布)
,则分类错误概率就越i 大。
为了衡量后验概率分布的集中程度,需要规定一个定量准则,我们可以借助于 信息论中关于熵的概念。
,
的函数。可定义如下形式的广义熵:
P(1 / x) P(2 / x)
P(c / x)
,
,…
式中,
是一个实的正参数,
。
J
a C
[
P
(1
/
x),
P ( 2
/
x),,
P ( c
/
x)]
c
(21a 1)1[ P a (i / x) 1] i 1
a
a1
不同的 spital法则有
a
a值可以得到不同的熵分离度量,例如当
8.1.1 基于距离的可分性准则 各类样本之间的距离越大,则类别可分
性越大。因此,可以用各类样本之间的距离的平 均值作为可分性准则
Jd
1 2
c
Pi
i 1
c
模式识别(7-1)特征的选择与提取
原始测量:(正常与异常)细胞的数字图像
原始特征(特征的形成,找到一组代表细胞性质的 特征):细胞面积,胞核面积,形状系数,光密度, 核内纹理,和浆比
压缩特征:原始特征的维数仍很高,需压缩以便于 分类
特征选择:挑选最有分类信息的特征 特征提取:数学变换
傅立叶变换或小波变换 用PCA方法作特征压缩
基于距离的可分性判据
计算所有样本平均距离作为判据 Jd (x) tr(Sw Sb )
其中“tr”表示矩阵的迹(对角线元素的和)。
各类特征向量之间的平均距离可写成:
1
Jd (x) 2
c
Pi
i 1
c
Pj
j 1
1 nin j
ni n j
(xk(i) , xl( j) )
k 1 l 1
其中Pi、Pj 分别表示各类的先验概率,ni、nj分别是第i与j
基于距离的可分性判据
如果推广至c类别情况,同时考虑各类的先验概率Pi 不等,则可将上列各式表示成:
c
Sb = Pi(mi m)(mi m)T i 1 c
Sw = PiEi[(mi m)(mi m)T ] i 1
其中, m 为总均值向量,Pi表示各类别的先验
概率,Ei表示i类的期望符号。
基于距离的可分性判据
Fisher准则时曾用过两个描述离散度的矩阵。一个 是类间离散矩阵Sb
Sb = (m1 - m2 )(m1 - m2 )T
另一个是类内离散度矩阵SW
Si = (x - mi )(x - mi )T , xX i
Sw = S1 + S2
i 1, 2
以上式子是针对两类别情况的,如果推广至c 类别情况?
)T (x(ki)
清华大学模式识别课件-08_第8章特征提取和特征选择教材
8.1.1. 一些基本概念
在一些书籍和文献中,使用“特征提取” , “特征选择”等术语时的含义不完全相同。 例如, “特征提取”在有的文献中专指特征的形成过程,有的则指从形成、经选择或变换直 到得出有效特征这一全过程。在实际应用中,通过对对象进行测量,可以得到对象的一种描 述,即用测量空间中的一个点来代表这个对象。例如,通过摄像机可以把一个物体转换为一 个二维灰度阵列,即一幅图像。在一些识别任务中,不直接在测量空间中进行分类器设计。 这一方面是因为测量空间的维数很高(一个 256×256 灰度图像相当于 256×256 维测量空间 中的一个点),不适宜于分类器的设计。更重要的是这样一种描述并不能直接反映对象的本 质,并且它随摄像机位置、光照等因素的变化而变化。因此为了进行分类器设计,需要把图 像从测量空间变换到维数大大减少的特征空间, 被研究的图像或现象在这个特征空间中就由 一个特征向量来表示。 实际上这样一种变换常常分成几个步骤进行,因此在一些文献中还采用特征提取和特 征选择这样的术语。为了方便起见,我们对几个常用的有关名词作些说明。 特征形成:根据被识别的对象产生出一组基本特征,它可以是计算出来的(当识别对象 是波形或数字图像时),也可以是用仪表或传感器测量出来的(当识别对象是实物或某种过程 时),这样产生出来的特征叫做原始特征,有些书中用原始测量(或一次测量,或观察)这一名 词,我们认为在很多情况下有些原始测量就可以作为原始特征,而有些情况则不然,例如识 别对象是数字图像时,原始测量就是各点灰度值,但有时候我们不用各点灰度作为特征,而 是需要经过计算产生一组原始特征。 特征提取:原始特征的数量可能很大,或者说样本是处于一个高维空间中,通过映射 (或变换)的方法可以用低维空间来表示样本,这个过程叫特征提取。映射后的特征叫二次特 征, 它们是原始特征的某种组合(通常是线性组合)。 所谓特征提取在广义上就是指一种变换。 若 Y 是测量空间,X 是特征空间,则变换 A:Y→X 就叫做特征提取器。 特征选择:从一组特征中挑选出一些最有效的特征以达到降低特征空间维数的目的, 这个过程叫特征选择。 以细胞自动识别为例,通过图像输入得到一批包括正常及异常细胞的数字图像,我们 的任务是根据这些图像区分哪些细胞是正常的, 哪些是异常的。 首先要找出一组能代表细胞 性质的特征。为此可以计算细胞总面积、总光密度、胞核面积、核浆比、细胞形状、核内纹 理等,这样可得到很多原始特征,这一过程就是特征的形成。这样产生出来的原始特征可能 很多(例如几十甚至几百个),或者说原始特征空间维数很高,需要压缩维数以便分类。一种 方式是用变换的方法把原始特征变换为较少的新特征, 这就是特征提取。 另一种方式就是从 原始特征中去挑选出一些最有代表性的特征来, 这就是特征选择。 最简单的特征选择方法是
模式识别讲义-特征提取和特征选择38页PPT
2、要冒一次险!整个生命就是一场冒险。走得最远的人,常是愿意 去做,并愿意去冒险的人。“稳妥”之船,从未能从岸边走远。-戴尔咖啡,喝起来是苦涩的,回味起来却有 久久不会退去的余香。
模式识别讲义-特征提取和特征选择 4、守业的最好办法就是不断的发展。 5、当爱不能完美,我宁愿选择无悔,不管来生多么美丽,我不愿失 去今生对你的记忆,我不求天长地久的美景,我只要生生世世的轮 回里有你。
55、 为 中 华 之 崛起而 读书。 ——周 恩来
谢谢!
51、 天 下 之 事 常成 于困约 ,而败 于奢靡 。——陆 游 52、 生 命 不 等 于是呼 吸,生 命是活 动。——卢 梭
53、 伟 大 的 事 业,需 要决心 ,能力 ,组织 和责任 感。 ——易 卜 生 54、 唯 书 籍 不 朽。——乔 特
模式识别 第六章 特征提取与选择
(三) 类内及总体的均值矢量
类的均值矢量:
m (i)
1 Ni
Ni
xk
(i
)
k 1
i 1,2,, c
各类模式的总体均值矢量 m c Pi m (i)
i 1
Pi 为相应类的先验概率,当用统计量代替先验概 率时,总体均值矢量可表示为:
m
c i 1
Pi
只考虑连续的情况:
因为f(0)=f(1) = 0 ,当 0 s 1 时
f ’(s) = a-b-asb1-s (ln a - ln b)=0 a=b
从而有 f(s)=0 a=b ,由此有:
JC=0 p(x |1) p(x | 2 )
28
Jc 性质(5)证明:
设P(e)为最小误分概率,则:
由上式进一步可得:
P0 (e) P(1)s P( 2 )1s
p(
x
1
)
s
p(
x
2
)1
s
d
x
W
P(1)s P( 2 )1s exp JC
29
6.2.2基于类的概率密度函数的可分性判据
由JB和JC的定义知:JB=JC(1/2)
对p(两x类都1)是~正N态(分m布(1)情, C况1:)
)
)
T
C1
C2 2
1
(m (1)
m (2) )
p( x
2)
~
N (m (2)
, C2 )
JC
1 s(1 s)(m (1) 2
m (2) )T
模式识别 第6章 特征选择与提取
第六章特征选择与提取6.1 引言6.2 类别可分性判据6.3 特征选择6.4 特征提取6.5 图象的特征提取6.1 引言基本任务:如何从多特征中找出那些最有效的特征或:获取一组”少而精”的分类特征压缩⇒⇒研究如何高维特征空间低维特征空间特征分为三类:(1)物理的; (2)结构的; (3)数学的本章研究、讨论:学习样本选择并提取数学特征⎧⎨⎩⎧⎪⎪⎪⎨⎪⎧⎪⎨⎪⎩⎩物理人们直观识别对象特征感觉器官接受结构统计平均值相关系数机器自动识别对象:数学特征本征值协方差阵本征向量基本概念1.特征形成:根据被识别的对象产生一组原始特征⎧⎨⎩传感器的直接测量值模式空间计算值(波形、数字图象)例如:细胞识别⎧⎫⎪⎪⎪⎪⎯⎯⎯→⎨⎬⎪⎪⎪⎪⎩⎭计算通过图象输入得到细胞的数字图象细胞面积总光密度原始特征胞核面积核浆比⎧⎨⇒⎩专家经验和知识方法数学方法筛选比较Y XT E E T ⇒::特征提取值(变换)器3.特征提取:通过映射或变换的方法,把模式空间的高维特征向量变成特征空间的低维特征。
2.特征选择:从一组特征中挑选出一些最有效的特征(过程)。
⎧⎪⎨⎪⎩特征评估标准解决特征选择与提取特征空间的维数优化过程⇒传感器特征形成特征选择与提取分类器⇒⇒⎯⎯⎯→决策→→→传感器特征形成特征选择与提取分类器⎯→⎯⎯→⎯⎯→⎯321Y Y Y ⎯→⎯⎯→⎯21X X ⎯⎯⎯→决策含有特征选择和提取的模式分类问题框图特征选择/提取降维过程信号6.2 类别可分性判据d D C ⇒特征选择/提取的任务:从D 个特征中选择出d个特征组合哪种组合最好准则衡量⇒找出:分类器错误率最小的那组特征(/)e i P p x ω⎧⎧⎪⎨⎨⎩⎪⎩计算理论上正确最有效的特征未知实际有困难希望找出一些使用的标准以衡量各类之间的可分性希望可分性准则满足下列几条要求:(1)与错误概率(或错误率上下界)有单调关系,这使取极值时其分类错误率也较小。
(2)度量特性:0, , 0, , ij ij ij jiij ij J i j J i j J J J i j J >≠===⎧⎨⎩当时不同类当时同类其中是第类和第类的可分性准则函数,类内分离度小越大,两类的分离程度就越大类间分离度大(3)单调性:加入新的特征时,准则函数不减小。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2、特征的类别
• 形式上分三类: • 1、物理特征 • 物理特征是比较直接、人们容易感知的特 征,很容易被选出,如为了描述某个学生, 可以用:性别、身高、胖瘦、肤色等外在 特征。物理特征虽然容易感知,却未必能 非常有效地表征分类对象。 • 2、结构特征 • 结构特征的表达能力一般要高于物理特征,
• 如汉字识别的成功、指纹的识别就实现离 不开结构特征的选择。结构特征的表达是 先将观察对象分割成若干个基本构成要素, 再确定基本要素间的相互连接关系。 • 结构信息对对象的尺寸往往不太敏感,如 汉字识别时,识别系统对汉字大小不敏感, 只对笔划结构信息敏感。 • 3、数字特征 • 一般来说,数字特征是为了表征观察对象 而设立的特征,如给每个学生设立一个学 号,作为标志每个学生的特征。
第8章 特征选择与特征提取
8.1 基本概念 8.2 类别可分性测度
8.3 基于可分性测度的特征提取方法
8.1 基本概念
• 1、特征的特点 • 模式识别的主要功能在于利用计算机实现 人的类识别能力,在模式识别过程中,特 征的确定比较复杂,研究领域不同,选择 的特征也不同,但不论采用什Байду номын сангаас样的特征, 都应该满足以下条件: • (1)特征是可获取的 • (2)类内稳定 • (3)类间差异
x2
x2B 2
' x2
x1'
BB A
x2 A2
[法2]:① 特征抽取:测量
物体向两个坐标轴的投影 值,则A、B各有2个值域区
x1
x 2 B1 x 2 A1
x1 B1
x1 A1
间。可以看出,两个物体的 投影有重叠,直接使用投影 值无法将两者区分开。
x1B 2 x1 A 2
② 分析:将坐标系按逆时针方向做一旋转变化,或物体按顺时
i 类对 j 类的对数似然比:
lij ln
p( X i ) p( X j )
j 类对 i 类的对数似然比:l ji ln
p( X j ) p( X i )
对不同的X,似然函数不同,对数似然比体现的可分性 不同,通常采用平均可分性信息——对数似然比的期望值 。
i 类对数似然比的期望值:
2)散度的性质
(1)J ij J ji
J ij I ij I ji [ p ( X i ) p ( X j )] ln
X
p ( X i ) p( X j )
p ( X i )
dX
J ji I ji I ij [ p ( X j ) p ( X i )] ln
Matlab提取任意形状点坐标
多类模式向量间的距离 两类情况的距离
设 ω1 类中有 q 个样本, ω2 类中有 p
类似于协方差阵 s=[a11 a12 a13...a1q a21 a22 a23...a2q ....................... 个样本。 ap1 ap2...........ap,q ]
当模式在空间中发生移动、旋转、缩放时,特征值应保持 不变,保证仍可得到同样的识别效果。
例:特征选择与特征提取的区别:对一个条形和圆进行识别。
解:[法1] ① 特征抽取:测量三个结构特征
B
(a) 周长
A
(b) 面积 (c)两个互相垂直的内径比
② 分析: (c)是具有分类能力的特征,故选(c), 扔掉(a) 、 (b) 。 —— 特征选择:一般根据物理特征或结构特征进行压缩。
H c x H c p pi log pi
i 1 c
即机器学习程序,如神经网络分类器,决策 树算法,支持向量机等
主成分分析实例:Landsat卫星上TM 影像
结束
p( X j )
dX
i 类对 j 类的散度定义为 J ij :
J ij I ij I ji [ p ( X i ) p ( X j )] ln
X
p ( X i ) p( X j )
dX
散度表示了区分ωi类和ωj 类的总的平均信息。 ——特征选择和特征提取应使散度尽可能的 特征选择和特征提取应使散度尽可能的大。 ?
X
p( X j )
dX
(2) J ij 为非负,即 J ij 0 。 当 p( X | i ) p( X | j ) 时, J ij 0 ,
p( X | i ) 与 p( X | j ) 相差愈大, J ij 越大。
当 p( X | i ) p( X | j ) ,两类分布密度相同, J ij 0 。
' 针方向变,并适当平移等。根据物体在 轴上投影的坐标值的正 x2
负可区分两个物体。 ——特征提取,一般用数学的方法进行压缩。
3、特征提取和选择的作用
• 特征提取和特征选择的主要目的都是,在不降低 或很少降低分类结果性能的情况下,降低特征空 间的维数,其主要作用在于: • (1)简化计算; • (2)简化特征空间结构;由于特征提取和选择是 去除类间差别小的特征,保留类间差别大的特征, 因此,每类所占据的子空间接哦股可分离性更强, 从而简化分类复杂度。
I ij E{lij }
j 类对数似然比的期望值:
I ji E{l ji }
X
p ( X i ) ln
p ( X i ) p( X j )
E{x} xp( x)d ( x)
dX
p ( X i ) 散度等于两类的对数似然比期望值之和。
X
p ( X j ) ln
(3)错误率分析中,两类概率密度曲线交叠越少,错误率越小。
p( x | i ) P(i )
p( x | 2 ) P(2 )
p( x | 1 ) P(1 )
2
P(1 ) P1 (e)
x R2
1
P( 2 ) P2 (e)
R1
0
由散度的定义式 J ij I ij I ji X [ p ( X i ) p ( X j )] ln
q个
p个
ω1
共p×q个距离
2
两个类区之间的距离 = p×q个距离的平均距离
类似地 多类情况
多类间任意两个点间距离的平均距离 多类间任意两个点间平方距离的平均值
2.散度 1)散度的定义 出发点:对数似然比含有类别的可分性信息。
设 i , j 类的概率密度函数分别为 p( X | i ) 和 p( X | j )
对特征的要求 (1) 具有很大的识别信息量。即应具有很好的可分性。
(2) 具有可靠性。模棱两可、似是而非、时是时非等不易判别
的特征应丢掉。 (3) 尽可能强的独立性。重复的、相关性强的特征只选一个。
(4) 数量尽量少,同时损失的信息尽量小。
特征选择和特征提取的异同 (1)特征选择:从L个度量值集合 x1 , x2 , xL 中按一定准 则选出供分类用的子集,作为降维(m维,m < L)的分类 特征。 (2)特征提取:使一组度量值 ( x1 , x2 , xL ) 通过某种变换 hi 产生新的m个特征 ( y1 , y2 , ym ) ,作为降维的分类特征, 其中 i 1,2,, m ; m L 。
p ( X i ) p( X j )
dX
可知,散度愈大,两类概率密度函数曲线相差愈大,交叠愈少, 分类错误率愈小。 与贝叶斯判决准则(最大后验概率)一致
6.2.3、基于熵函数的可分离性判据 除了采用前面的类概率密度函数来刻画类别的可分性外, 还可以由特征的后验概率分布来衡量它对分类的有效性。 (1)后验概率相等:无法确定样本所属类别; ( 2 )后验概率集中:存在一组特征使得 P( ω i |x)=1 ,且 P(ω j |x)=0,j<>i ,则此时样本 x 可以肯定地规划为 ω i 类, 而错误概率为零。 为了衡量后验概率分布的 集中程度 ,需要规定一个定量 指标。在信息论中用熵来作为不确定性的度量,熵越大则不 确定性就越大,因此可以借助熵的概念来描述各类的可分性。 对于c类问题,设给定样本x的各类后验概率为P(ω i|x)=Pi。 熵的定义: