模式识别第六章 特征提取
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
6
特征的选择与提取举例
细胞自动识别:
原始测量:(正常与异常)细胞的数字图像 原始特征(特征的形成,找到一组代表细胞 性质的特征):细胞面积,胞核面积,形状 系数,光密度,核内纹理,和浆比 压缩特征:原始特征的维数仍很高,需压缩 以便于分类
特征选择:挑选最有分类信息的特征 特征提取:数学变换
9
6.2 类别可分离性判据
实际的类别可分离性判据应满足的条件:
度量特性:判据具有距离的特性
Jij 0, if i j; Jij 0, if i j; Jij J ji
与错误率有单调关系:准则值越大,错误率也小。 当特征独立时有可加性: d
J ij ( x1 , x2 ,..., xd ) J ij ( xk )
类内距离和类内散布矩阵 类间距离和类间散布矩阵 多类模式向量间的距离和总体散布矩阵
Bhattacharyya判据(JB) Chernoff判据(JC) 散度判据(JD)
基于类的概率密度函数的可分性判据
基于熵函数的可分性判据
11
6.2.1 基于距离的可分性判据
基于距离的可分性判据的实质是 Fisher 准 则的延伸,即综合考虑不同类样本的类内 聚集程度与类间的离散程度这两个因素。 判据的优化体现出降维特征空间较好地体 现类内密集。一些不能体现类间分隔开的 特征很可能被排除掉了。 离散度矩阵(散布矩阵):一种描述数据 离散程度的方法。
k 1
对特征数目是单调不减,即加入新的特征后,判据值不减, 具有单调性:
Jij ( x1, x2 ,..., xd ) Jij ( x1, x2 ,..., xd , xd 1 )
常见类别可分离性判据:基于距离、概率分布、熵函 数
10
6.2 类别可分离性判据
基于几何距离的可分性判据
j
(x , x ) (x x ) (x x )
( j) T l
squared Euclidian
类间 距离
类内平 均距离
1 mi ni
c
(i ) x k k 1
ni
m Pi mi
i 1
c
1 ni (i ) J d (x) Pi (xk , mi ) (mi , m) ni k 1 i 1 c c c 1 Pi (mi , m) Pi Pj (mi , m j ) 2 i 1 j 1 i 1
5
特征的选择与来自百度文库取
两类提取有效信息、压缩特征空间的方 法:特征提取和特征选择
特征选择(selection) :从原始特征中挑选出 一些最有代表性,分类性能最好的特征; 特征提取 (extraction):用映射(或变换)的 方法把原始特征变换为较少的新特征;
特征的选择与提取与具体问题有很大关 系,目前没有理论能给出对任何问题都 有效的特征选择与提取方法。
傅立叶变换、小波变换等 用PCA方法作特征压缩
7
6.2 类别可分离性判据
特征选择或特征提取任务是从n个特征中求出 对分类最有效的m个特征(m<n)。 对于特征选择来讲,从n个特征中选择出m个特 征,有Cmn种组合方式。 哪一种特征组的分类效果最好? 需要一个定量的准则来衡量选择结果的好坏。
13
基于距离的可分性判据
类间可分性:=所有样本间的平均距离: n
1 1 J d (x) Pi Pj 2 i 1 j 1 ni n j
(i ) k ( j) l (i ) k
c
c
(i ) ( j) ( x , x k l ) k 1 l 1
(i ) k ( j) l
ni
14
基于距离的可分性判据矩阵形式
样本类间 离散度矩阵
Sb Pi (mi m)(mi m)T
12
6.2.1 基于距离的可分性判据
基于距离度量是分类的常用的重要依据,因为一 般情况下同类物体在特征空间呈聚类状态,即从 总体上说同类物体内各样本由于具有共性,因此 类内样本间距离应比跨类样本间距离小。 Fisher准则是以使类间距离尽可能大同时又保持 类内距离较小这一种原理为基础的。同样在特征 选择与特征提取中也使用类似的原理,这一类被 称为基于距离的可分性判据。 为了度量类内、类间的距离,可用其他方法描述 方法,即描述样本的离散程度的方法。
3
6.1 引言
特征的选择与提取是模式识别中重要而困难的一 个环节:
分析各种特征的有效性并选出最有代表性的特征是模 式识别的关键一步 降低特征维数在很多情况下是有效设计分类器的重要 课题 物理和结构特征:易于为人的直觉感知,但有时难于 定量描述,因而不易用于机器判别 数学特征:易于用机器定量描述和判别,如基于统计 的特征
4
三大类特征:物理、结构和数学特征
特征的形成
特征形成 (acquisition):
信号获取或测量→原始测量 原始特征
实例:
数字图象中的各像素灰度值 人体的各种生理指标 原始特征分析: 原始测量不能直观反映对象本质 高维原始特征不利于分类器设计:计算量大, 冗余,样本分布十分稀疏
第六章 特征选择与提取
1
主要内容
引言 类别可分离性判据 特征提取与K-L变换 特征的选择 讨论
2
6.1 引言
模式识别的三大核心问题 特征数据采集 特征提取与选择 分类识别 分类识别的正确率取决于对象的表示、 训练学习和分类识别算法,前面各章的 介绍中详细讨论了后两方面的内容。本 章介绍的特征提取与选择问题则是对象 表示的一个关键问题。
8
6.2 类别可分离性判据
类别可分离性判据:衡量不同特征及其组合对分 类性能好坏的影响,并用来导出特征选择与特 征提取的方法。 理想准则:分类器错误概率
特征选择和提取的目的是用于分类,以分类器错误 概率为准则选取的特征,应当是最有效的特征。 从错误概率的计算公式可以发现,即使在类条件概 率密度已知的情况下错误概率的计算也很复杂,何 况实际问题中概率分布常常不知道,这使得直接用 错误概率作为准则来评价特征的有效性比较困难。
特征的选择与提取举例
细胞自动识别:
原始测量:(正常与异常)细胞的数字图像 原始特征(特征的形成,找到一组代表细胞 性质的特征):细胞面积,胞核面积,形状 系数,光密度,核内纹理,和浆比 压缩特征:原始特征的维数仍很高,需压缩 以便于分类
特征选择:挑选最有分类信息的特征 特征提取:数学变换
9
6.2 类别可分离性判据
实际的类别可分离性判据应满足的条件:
度量特性:判据具有距离的特性
Jij 0, if i j; Jij 0, if i j; Jij J ji
与错误率有单调关系:准则值越大,错误率也小。 当特征独立时有可加性: d
J ij ( x1 , x2 ,..., xd ) J ij ( xk )
类内距离和类内散布矩阵 类间距离和类间散布矩阵 多类模式向量间的距离和总体散布矩阵
Bhattacharyya判据(JB) Chernoff判据(JC) 散度判据(JD)
基于类的概率密度函数的可分性判据
基于熵函数的可分性判据
11
6.2.1 基于距离的可分性判据
基于距离的可分性判据的实质是 Fisher 准 则的延伸,即综合考虑不同类样本的类内 聚集程度与类间的离散程度这两个因素。 判据的优化体现出降维特征空间较好地体 现类内密集。一些不能体现类间分隔开的 特征很可能被排除掉了。 离散度矩阵(散布矩阵):一种描述数据 离散程度的方法。
k 1
对特征数目是单调不减,即加入新的特征后,判据值不减, 具有单调性:
Jij ( x1, x2 ,..., xd ) Jij ( x1, x2 ,..., xd , xd 1 )
常见类别可分离性判据:基于距离、概率分布、熵函 数
10
6.2 类别可分离性判据
基于几何距离的可分性判据
j
(x , x ) (x x ) (x x )
( j) T l
squared Euclidian
类间 距离
类内平 均距离
1 mi ni
c
(i ) x k k 1
ni
m Pi mi
i 1
c
1 ni (i ) J d (x) Pi (xk , mi ) (mi , m) ni k 1 i 1 c c c 1 Pi (mi , m) Pi Pj (mi , m j ) 2 i 1 j 1 i 1
5
特征的选择与来自百度文库取
两类提取有效信息、压缩特征空间的方 法:特征提取和特征选择
特征选择(selection) :从原始特征中挑选出 一些最有代表性,分类性能最好的特征; 特征提取 (extraction):用映射(或变换)的 方法把原始特征变换为较少的新特征;
特征的选择与提取与具体问题有很大关 系,目前没有理论能给出对任何问题都 有效的特征选择与提取方法。
傅立叶变换、小波变换等 用PCA方法作特征压缩
7
6.2 类别可分离性判据
特征选择或特征提取任务是从n个特征中求出 对分类最有效的m个特征(m<n)。 对于特征选择来讲,从n个特征中选择出m个特 征,有Cmn种组合方式。 哪一种特征组的分类效果最好? 需要一个定量的准则来衡量选择结果的好坏。
13
基于距离的可分性判据
类间可分性:=所有样本间的平均距离: n
1 1 J d (x) Pi Pj 2 i 1 j 1 ni n j
(i ) k ( j) l (i ) k
c
c
(i ) ( j) ( x , x k l ) k 1 l 1
(i ) k ( j) l
ni
14
基于距离的可分性判据矩阵形式
样本类间 离散度矩阵
Sb Pi (mi m)(mi m)T
12
6.2.1 基于距离的可分性判据
基于距离度量是分类的常用的重要依据,因为一 般情况下同类物体在特征空间呈聚类状态,即从 总体上说同类物体内各样本由于具有共性,因此 类内样本间距离应比跨类样本间距离小。 Fisher准则是以使类间距离尽可能大同时又保持 类内距离较小这一种原理为基础的。同样在特征 选择与特征提取中也使用类似的原理,这一类被 称为基于距离的可分性判据。 为了度量类内、类间的距离,可用其他方法描述 方法,即描述样本的离散程度的方法。
3
6.1 引言
特征的选择与提取是模式识别中重要而困难的一 个环节:
分析各种特征的有效性并选出最有代表性的特征是模 式识别的关键一步 降低特征维数在很多情况下是有效设计分类器的重要 课题 物理和结构特征:易于为人的直觉感知,但有时难于 定量描述,因而不易用于机器判别 数学特征:易于用机器定量描述和判别,如基于统计 的特征
4
三大类特征:物理、结构和数学特征
特征的形成
特征形成 (acquisition):
信号获取或测量→原始测量 原始特征
实例:
数字图象中的各像素灰度值 人体的各种生理指标 原始特征分析: 原始测量不能直观反映对象本质 高维原始特征不利于分类器设计:计算量大, 冗余,样本分布十分稀疏
第六章 特征选择与提取
1
主要内容
引言 类别可分离性判据 特征提取与K-L变换 特征的选择 讨论
2
6.1 引言
模式识别的三大核心问题 特征数据采集 特征提取与选择 分类识别 分类识别的正确率取决于对象的表示、 训练学习和分类识别算法,前面各章的 介绍中详细讨论了后两方面的内容。本 章介绍的特征提取与选择问题则是对象 表示的一个关键问题。
8
6.2 类别可分离性判据
类别可分离性判据:衡量不同特征及其组合对分 类性能好坏的影响,并用来导出特征选择与特 征提取的方法。 理想准则:分类器错误概率
特征选择和提取的目的是用于分类,以分类器错误 概率为准则选取的特征,应当是最有效的特征。 从错误概率的计算公式可以发现,即使在类条件概 率密度已知的情况下错误概率的计算也很复杂,何 况实际问题中概率分布常常不知道,这使得直接用 错误概率作为准则来评价特征的有效性比较困难。