模式识别(7-1)特征的选择与提取
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
细胞自动识别:
原始测量:(正常与异常)细胞的数字图像
原始特征(特征的形成,找到一组代表细胞性质的 特征):细胞面积,胞核面积,形状系数,光密度, 核内纹理,和浆比
压缩特征:原始特征的维数仍很高,需压缩以便于 分类
特征选择:挑选最有分类信息的特征 特征提取:数学变换
傅立叶变换或小波变换 用PCA方法作特征压缩
4 1 0
2 1 0
1 1 4 0 2 1 2 0
0 0 1
0 0 1
求用J
判据的最优特征提取。
5
理想准则:某组特征使分类器错误概率最小。 常见类别可分离性判据:
- 基于距离的可分性判据:计算样本在特征空间离散程度
- 基于概率密度分布的判据
基于距离的可分性判据
基于距离度量是人们常用来进行分类的重要依据,因为一 般情况下同类物体在特征空间呈聚类状态,即从总体上说 同类物体内各样本由于具有共性,因此类内样本间距离应 比跨类样本间距离小。
x WTy W :Dd
令Sw和Sb为y的离散度矩阵,Sw*和Sb*为x的离散度矩阵:
Sb* W T SbW
Sw* W T SwW
J2
(W
)
tr
(S
S *-1 *
wb
)
tr[(W
T
SwW
)1W
T
SbW
]
上式对W的各分量求偏导数,并令其为零,即可
推出W 值。
使判据J2, J3, J4, J5最大的变换W
后一项则是类间距离项。后一项可写成
c
i 1
Pi (mi
m)T
(mi
m)
1 2
c i 1
Pi
c j 1
Pj (mi
m j )T (mi
mj )
可分性判据
样本类间 离散度矩阵
样本类内 离散度矩阵
c
Sb Pi (mi m)(mi m)T i 1
估
计 Sw
c i1
Pi
1 ni
ni
而特征提取则是找到一个映射关系:A:Y→X;使新样本特
征描述维数比原维数降低。其中每个分量xi是原特征向量各
分量的函数,即
。
因此这两种降维的基本方法是不同的。在实际应用中可将 两者结合起来使用,比如先进行特征提取,然后再进一步 选择其中一部分,或反过来。
特征的选择与提取
两类提取有效信息、压缩特征空间的方法:特 征提取和特征选择
( xk(i )
k 1
mi
)(
x(i) k
mi
)T
值
Jd (x) tr(Sw Sb )
类间可分离 性判据
基于距离的准则概念直观,计算方 便,但与错误率没有直接联系
可分性判据
有限样本集:
i Ei x
Ex
c
Sb Pi (i )(i )T i 1
c
Sw Pi Ei (i )(i )T i 1
Fisher准则正是以使类间距离尽可能大同时又保持类内 距离较小这一种原理为基础的。
基于距离的可分性判据的实质是Fisher准则的延伸,即综 合考虑不同类样本的类内聚集程度与类间的离散程度这两 个因素。换句话说,这种判据的优化体现出降维后的特征 空间较好地体现类内密集、类间分离的要求。换句话说一 些不能体现类间分隔开的特征很可能被排除掉了。
类的样本个数, 用
来表示第i类的第k个与j类第
l个样本之间的距离度量。在欧氏距离情况下,有:
( xk(i) ,
xl(
j) )
( xk(i)
xl(
j)
)T
(
x(i) k
xl(
j)
)
基于距离的可分性判据
(x(ki) , xl( j) ) (x(ki)
mi
1 ni
ni
x(i) k
k 1
xl( j) m
① s阶明考夫斯基距离
| | dij(s)
n
s 1 s Xik Xjk
k 1
② 绝对值距离(城市距离、棋盘距离)
n
dij
| Xik Xjk |
k 1
③ 欧几里德距离
dij
n Xik Xjk 2
k 1
ห้องสมุดไป่ตู้
利用判据J2进行特征提取的步骤:
D维原始特征:y y1, y2, yD T x x1, x2, xd T
设矩阵Sw1Sb的本征值为1, 2 , , D ,
按大小排序:
1 2 D
则选前d个本征值对应的本征向量 作为W。即:
W u1, u2 , , ud
d
此时,J2 (W ) i i 1
例题:
给定先验概率相等的两类,其均值向量分别为:
1 1, 3, 1T 2 1, 1,1T ,
协方差矩阵是:
思考:
设原特征空间表示成
现在在x空间基础上得到一个二维的特征空 间
其中若 化?
,属特征选择还是组合优
若
,属特征选择还是组合优化?
§7.2 类别可分性判据
特征选择与特征提取的任务是求出一组对分类最有效的 特征,所谓有效是指在特征维数减少到同等水平时,其 分类性能最佳。
因此需要有定量分析比较的方法,判断所得到的特征维 数及所使用特征是否对分类最有利,这种用以定量检验 分类性能的准则称为类别可分离性判据。
J d ( x) tr (Sw Sb )
类内类间距离其它判据
判据Jd(X)是计算特征向量的总平均距离,以下一些判据 则基于使类间离散度尽量大,类内离散度尽量小的考虑 而提出:
J1(x) tr(Sw Sb )
使判据最大?
各种距离度量
已知两个样本
Xi=(Xi1, Xi2 , Xi3,…,Xin)T Xj=(Xj1, Xj2 , Xj3,…,Xjn)T
)T (x(ki)
c
Pi mi
i 1
xl(
j) )
Jd
(x)
1 2
c i 1
Pi
c
Pj
j 1
1 nin j
ni k 1
nj
(xk(i) , xl( j) )
l 1
c i 1
Pi
1
ni
( xk(i )
mi )T (xk(i)
mi ) (mi
m)T (mi
m)
右边括弧里的前一项涉及类内各特征向量之间的平方距离,
§7.1 基本概念
本章要讨论的问题是对已有的特征空间进行改 造,着重于研究对样本究竟用什么样的度量方 法更好。
对分类器设计来说,使用什么样的特征描述事 物,也就是说使用什么样的特征空间是个很重 要的问题。这个问题称之为描述量的选择问题, 即保留哪些描述量,删除哪些描述量的问题。
由于对特征空间进行改造目的在于提高其某方 面的性能,因此又称特征的优化问题。
基于距离的可分性判据
计算所有样本平均距离作为判据 Jd (x) tr(Sw Sb )
其中“tr”表示矩阵的迹(对角线元素的和)。
各类特征向量之间的平均距离可写成:
1
Jd (x) 2
c
Pi
i 1
c
Pj
j 1
1 nin j
ni n j
(xk(i) , xl( j) )
k 1 l 1
其中Pi、Pj 分别表示各类的先验概率,ni、nj分别是第i与j
基于距离的可分性判据
Fisher准则时曾用过两个描述离散度的矩阵。一个 是类间离散矩阵Sb
Sb = (m1 - m2 )(m1 - m2 )T
另一个是类内离散度矩阵SW
Si = (x - mi )(x - mi )T , xX i
Sw = S1 + S2
i 1, 2
以上式子是针对两类别情况的,如果推广至c 类别情况?
每一个特征是原有特征的一个函数。
假设已有D维特征向量空间
,则所谓特
征选择是指从原有的D维特征空间,删去一些特征描述量,
从而得到精简后的特征空间。在这个特征空间中,样本由d
维的特征向量描述:
,d<D。由于X只
是Y的一个子集,因此每个分量xi必然能在原特征集中找到 其对应的描述量xi=yj。
§7.1 基本概念
§7.1 基本概念
➢ 设计对事物的描述方法是充分发挥设计者智慧的过程, 这个层次的工作往往因事物而易,与设计者本人的知识结 构也有关。 ➢这个层次的工作是最关键的,但因为太缺乏共性,也不 是本章讨论的内容。
§7.1 基本概念
3.特征空间的优化 本层次工作发生在已有了特征的描述方法之后, 也就是已有了一个初始的特征空间,如何对它进 行改造与优化的问题。
获得原始信息之后,要对其进一步加工,以获取 对分类最有效的信息。关键在于设计所要信息的 形式。
例:对阿拉伯数字的识别可以提出各种不同的想法:
➢分析从框架的左边框到数字之间的距离变化反映了不同数字的 不同形状,这可以用来作为数字分类的依据。 ➢强调分析不同截面的信号,如在框架的若干部位沿不同方向截 取截面分析从背景到字,以及从字到背景转换的情况。如AB截 面切割字符三次,CD截面切割字符一次等。
模式识别
第七章特征的选择与提取(1)
模式识别系统:
§7.1 基本概念
前几章主要讨论模式识别的重要概念,如贝叶 斯分类器、线性分类器等。在讨论这些设计分 类器的方法时,提到有一个样本集,样本集中 的样本用一个已经确定的向量来描述。
例:对苹果与梨分类 尺寸、重量和颜色三 种度量。
即对要分类的样本怎样描述这个问题是已经确 定的。在这种条件下研究分类器设计问题是一 个选择什么准则、使用什么方法,将已确定的 d维特征空间划分成决策域的问题 。
§7.1 基本概念
Ø 核心:如何构造一个特征空间,即对要识别的事物用 什么方法进行描述、分析的问题。
对一个具体问题来说,有以下几个不同的层次:
1.物理量的获取与转换: 指用什么样的传感器获取电信号,如摄取景物则要用摄
像机,文字与数字识别首先要用扫描仪等设备。这些都 属于物理量的获取,并且已转换成电信号,为计算机分 析打下了基础。 对从传感器中得到的信号,可以称之为原始信息,因为 它要经过加工、处理才能得到对模式分类更加有用的信 号。
§7.1 基本概念
特征形成 (acquisition):
信号获取或测量→原始测量 原始特征
实例:
数字图象中的各像素灰度值 人体的各种生理指标 原始特征分析: 原始测量不能反映对象本质 高维原始特征不利于分类器设计:计算量大,冗余,
样本分布十分稀疏
§7.1 基本概念
2.描述事物方法的选择与设计
特征提取 (extraction):用映射(或变换)的方 法把原始特征变换为较少的新特征
特征选择(selection) :从原始特征中挑选出一 些最有代表性,分类性能最好的特征
特征的选择与提取与具体问题有很大关系,目 前没有理论能给出对任何问题都有效的特征选 择与提取方法
特征的选择与提取举例
要对初始的特征空间进行优化是为了降维。即初 始的特征空间维数较高。能否改成一个维数较低 的空间,称为优化,优化后的特征空间应该更有 利于后续的分类计算,这就是本章着重讨论的问 题。
§7.1 基本概念
对特征空间进行优化有两种基本方法:
特征选择:删掉部分特征; 特征的组合优化:要通过一种映射,也就是说新的
基于距离的可分性判据
如果推广至c类别情况,同时考虑各类的先验概率Pi 不等,则可将上列各式表示成:
c
Sb = Pi(mi m)(mi m)T i 1 c
Sw = PiEi[(mi m)(mi m)T ] i 1
其中, m 为总均值向量,Pi表示各类别的先验
概率,Ei表示i类的期望符号。
原始测量:(正常与异常)细胞的数字图像
原始特征(特征的形成,找到一组代表细胞性质的 特征):细胞面积,胞核面积,形状系数,光密度, 核内纹理,和浆比
压缩特征:原始特征的维数仍很高,需压缩以便于 分类
特征选择:挑选最有分类信息的特征 特征提取:数学变换
傅立叶变换或小波变换 用PCA方法作特征压缩
4 1 0
2 1 0
1 1 4 0 2 1 2 0
0 0 1
0 0 1
求用J
判据的最优特征提取。
5
理想准则:某组特征使分类器错误概率最小。 常见类别可分离性判据:
- 基于距离的可分性判据:计算样本在特征空间离散程度
- 基于概率密度分布的判据
基于距离的可分性判据
基于距离度量是人们常用来进行分类的重要依据,因为一 般情况下同类物体在特征空间呈聚类状态,即从总体上说 同类物体内各样本由于具有共性,因此类内样本间距离应 比跨类样本间距离小。
x WTy W :Dd
令Sw和Sb为y的离散度矩阵,Sw*和Sb*为x的离散度矩阵:
Sb* W T SbW
Sw* W T SwW
J2
(W
)
tr
(S
S *-1 *
wb
)
tr[(W
T
SwW
)1W
T
SbW
]
上式对W的各分量求偏导数,并令其为零,即可
推出W 值。
使判据J2, J3, J4, J5最大的变换W
后一项则是类间距离项。后一项可写成
c
i 1
Pi (mi
m)T
(mi
m)
1 2
c i 1
Pi
c j 1
Pj (mi
m j )T (mi
mj )
可分性判据
样本类间 离散度矩阵
样本类内 离散度矩阵
c
Sb Pi (mi m)(mi m)T i 1
估
计 Sw
c i1
Pi
1 ni
ni
而特征提取则是找到一个映射关系:A:Y→X;使新样本特
征描述维数比原维数降低。其中每个分量xi是原特征向量各
分量的函数,即
。
因此这两种降维的基本方法是不同的。在实际应用中可将 两者结合起来使用,比如先进行特征提取,然后再进一步 选择其中一部分,或反过来。
特征的选择与提取
两类提取有效信息、压缩特征空间的方法:特 征提取和特征选择
( xk(i )
k 1
mi
)(
x(i) k
mi
)T
值
Jd (x) tr(Sw Sb )
类间可分离 性判据
基于距离的准则概念直观,计算方 便,但与错误率没有直接联系
可分性判据
有限样本集:
i Ei x
Ex
c
Sb Pi (i )(i )T i 1
c
Sw Pi Ei (i )(i )T i 1
Fisher准则正是以使类间距离尽可能大同时又保持类内 距离较小这一种原理为基础的。
基于距离的可分性判据的实质是Fisher准则的延伸,即综 合考虑不同类样本的类内聚集程度与类间的离散程度这两 个因素。换句话说,这种判据的优化体现出降维后的特征 空间较好地体现类内密集、类间分离的要求。换句话说一 些不能体现类间分隔开的特征很可能被排除掉了。
类的样本个数, 用
来表示第i类的第k个与j类第
l个样本之间的距离度量。在欧氏距离情况下,有:
( xk(i) ,
xl(
j) )
( xk(i)
xl(
j)
)T
(
x(i) k
xl(
j)
)
基于距离的可分性判据
(x(ki) , xl( j) ) (x(ki)
mi
1 ni
ni
x(i) k
k 1
xl( j) m
① s阶明考夫斯基距离
| | dij(s)
n
s 1 s Xik Xjk
k 1
② 绝对值距离(城市距离、棋盘距离)
n
dij
| Xik Xjk |
k 1
③ 欧几里德距离
dij
n Xik Xjk 2
k 1
ห้องสมุดไป่ตู้
利用判据J2进行特征提取的步骤:
D维原始特征:y y1, y2, yD T x x1, x2, xd T
设矩阵Sw1Sb的本征值为1, 2 , , D ,
按大小排序:
1 2 D
则选前d个本征值对应的本征向量 作为W。即:
W u1, u2 , , ud
d
此时,J2 (W ) i i 1
例题:
给定先验概率相等的两类,其均值向量分别为:
1 1, 3, 1T 2 1, 1,1T ,
协方差矩阵是:
思考:
设原特征空间表示成
现在在x空间基础上得到一个二维的特征空 间
其中若 化?
,属特征选择还是组合优
若
,属特征选择还是组合优化?
§7.2 类别可分性判据
特征选择与特征提取的任务是求出一组对分类最有效的 特征,所谓有效是指在特征维数减少到同等水平时,其 分类性能最佳。
因此需要有定量分析比较的方法,判断所得到的特征维 数及所使用特征是否对分类最有利,这种用以定量检验 分类性能的准则称为类别可分离性判据。
J d ( x) tr (Sw Sb )
类内类间距离其它判据
判据Jd(X)是计算特征向量的总平均距离,以下一些判据 则基于使类间离散度尽量大,类内离散度尽量小的考虑 而提出:
J1(x) tr(Sw Sb )
使判据最大?
各种距离度量
已知两个样本
Xi=(Xi1, Xi2 , Xi3,…,Xin)T Xj=(Xj1, Xj2 , Xj3,…,Xjn)T
)T (x(ki)
c
Pi mi
i 1
xl(
j) )
Jd
(x)
1 2
c i 1
Pi
c
Pj
j 1
1 nin j
ni k 1
nj
(xk(i) , xl( j) )
l 1
c i 1
Pi
1
ni
( xk(i )
mi )T (xk(i)
mi ) (mi
m)T (mi
m)
右边括弧里的前一项涉及类内各特征向量之间的平方距离,
§7.1 基本概念
本章要讨论的问题是对已有的特征空间进行改 造,着重于研究对样本究竟用什么样的度量方 法更好。
对分类器设计来说,使用什么样的特征描述事 物,也就是说使用什么样的特征空间是个很重 要的问题。这个问题称之为描述量的选择问题, 即保留哪些描述量,删除哪些描述量的问题。
由于对特征空间进行改造目的在于提高其某方 面的性能,因此又称特征的优化问题。
基于距离的可分性判据
计算所有样本平均距离作为判据 Jd (x) tr(Sw Sb )
其中“tr”表示矩阵的迹(对角线元素的和)。
各类特征向量之间的平均距离可写成:
1
Jd (x) 2
c
Pi
i 1
c
Pj
j 1
1 nin j
ni n j
(xk(i) , xl( j) )
k 1 l 1
其中Pi、Pj 分别表示各类的先验概率,ni、nj分别是第i与j
基于距离的可分性判据
Fisher准则时曾用过两个描述离散度的矩阵。一个 是类间离散矩阵Sb
Sb = (m1 - m2 )(m1 - m2 )T
另一个是类内离散度矩阵SW
Si = (x - mi )(x - mi )T , xX i
Sw = S1 + S2
i 1, 2
以上式子是针对两类别情况的,如果推广至c 类别情况?
每一个特征是原有特征的一个函数。
假设已有D维特征向量空间
,则所谓特
征选择是指从原有的D维特征空间,删去一些特征描述量,
从而得到精简后的特征空间。在这个特征空间中,样本由d
维的特征向量描述:
,d<D。由于X只
是Y的一个子集,因此每个分量xi必然能在原特征集中找到 其对应的描述量xi=yj。
§7.1 基本概念
§7.1 基本概念
➢ 设计对事物的描述方法是充分发挥设计者智慧的过程, 这个层次的工作往往因事物而易,与设计者本人的知识结 构也有关。 ➢这个层次的工作是最关键的,但因为太缺乏共性,也不 是本章讨论的内容。
§7.1 基本概念
3.特征空间的优化 本层次工作发生在已有了特征的描述方法之后, 也就是已有了一个初始的特征空间,如何对它进 行改造与优化的问题。
获得原始信息之后,要对其进一步加工,以获取 对分类最有效的信息。关键在于设计所要信息的 形式。
例:对阿拉伯数字的识别可以提出各种不同的想法:
➢分析从框架的左边框到数字之间的距离变化反映了不同数字的 不同形状,这可以用来作为数字分类的依据。 ➢强调分析不同截面的信号,如在框架的若干部位沿不同方向截 取截面分析从背景到字,以及从字到背景转换的情况。如AB截 面切割字符三次,CD截面切割字符一次等。
模式识别
第七章特征的选择与提取(1)
模式识别系统:
§7.1 基本概念
前几章主要讨论模式识别的重要概念,如贝叶 斯分类器、线性分类器等。在讨论这些设计分 类器的方法时,提到有一个样本集,样本集中 的样本用一个已经确定的向量来描述。
例:对苹果与梨分类 尺寸、重量和颜色三 种度量。
即对要分类的样本怎样描述这个问题是已经确 定的。在这种条件下研究分类器设计问题是一 个选择什么准则、使用什么方法,将已确定的 d维特征空间划分成决策域的问题 。
§7.1 基本概念
Ø 核心:如何构造一个特征空间,即对要识别的事物用 什么方法进行描述、分析的问题。
对一个具体问题来说,有以下几个不同的层次:
1.物理量的获取与转换: 指用什么样的传感器获取电信号,如摄取景物则要用摄
像机,文字与数字识别首先要用扫描仪等设备。这些都 属于物理量的获取,并且已转换成电信号,为计算机分 析打下了基础。 对从传感器中得到的信号,可以称之为原始信息,因为 它要经过加工、处理才能得到对模式分类更加有用的信 号。
§7.1 基本概念
特征形成 (acquisition):
信号获取或测量→原始测量 原始特征
实例:
数字图象中的各像素灰度值 人体的各种生理指标 原始特征分析: 原始测量不能反映对象本质 高维原始特征不利于分类器设计:计算量大,冗余,
样本分布十分稀疏
§7.1 基本概念
2.描述事物方法的选择与设计
特征提取 (extraction):用映射(或变换)的方 法把原始特征变换为较少的新特征
特征选择(selection) :从原始特征中挑选出一 些最有代表性,分类性能最好的特征
特征的选择与提取与具体问题有很大关系,目 前没有理论能给出对任何问题都有效的特征选 择与提取方法
特征的选择与提取举例
要对初始的特征空间进行优化是为了降维。即初 始的特征空间维数较高。能否改成一个维数较低 的空间,称为优化,优化后的特征空间应该更有 利于后续的分类计算,这就是本章着重讨论的问 题。
§7.1 基本概念
对特征空间进行优化有两种基本方法:
特征选择:删掉部分特征; 特征的组合优化:要通过一种映射,也就是说新的
基于距离的可分性判据
如果推广至c类别情况,同时考虑各类的先验概率Pi 不等,则可将上列各式表示成:
c
Sb = Pi(mi m)(mi m)T i 1 c
Sw = PiEi[(mi m)(mi m)T ] i 1
其中, m 为总均值向量,Pi表示各类别的先验
概率,Ei表示i类的期望符号。