第五章特征选择与特征提取
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章 高光谱遥感数据的特征选择与提取
高光谱遥感数据有助于我们完成更加细致的遥感地物分类 和目标识别,然而波段的增多也必然导致信息的冗余和数 据处理复杂性的增加。具体表现在:
(1)数据量急剧增加:波段的增加,使得高光谱数据比传 统数据多1-2个数量级,表现在显示,存储,管理方面相 当繁琐
(2)计算量增大:数据的膨胀导致计算机处理载荷大幅度 增加,寻找有效地降维空间手段是必要的
(3)离散度
相对距离是基于类间距离和类内方差,类内方 差越大,分类误差越大。而离散度则是基于条 件概率之差,表达式为:
D ijE [L 'i(jX )/w i]E [L 'i(jX )/w j]
L ij 代表某一点的似然比
L
' ij
代表似然比的自然对数
E 代表期望值
(4)J-M 距离
J-M距离也是基于类条件概率之差,与离散度 的评价方式一样,其表达式为:
(3)统计参数的估计误差增大:利用统计方法为了达到比 较精确的估计,样本个数一般是波段数的100倍以上,这 在高光谱数据中往往无法实现,因此,导致了分类精度的 普遍下降。
当光谱维数增加的时候,特征组合形式成指数倍 增加,如何优化光谱特征空间,进行光谱选择非 常重要。
5.1 光谱特征的选择
特征选择的方法是根据专家知识来进行挑选或者 是根据类别可分性准则选择。前者由于涉及到人 为的因素比较多,因此不作讨论;后者根据类别 可分性准则,挑选光谱特征。
Jij {[p (X /w i)p (X /w j)]2d} 1 X /2
x
J-M距离的组成成分与离散度是一样的,只是 函数表现形式不一样,因此,把离散度加以改 造,也能够很好的区分类别之间的距离和可分 离性。
根据可分性准则函数计算n个特征中每个特征可 分性,然后根据各个特征的可分性大小进行排序, 选择可分性最大的前m(n>m)个特征。
(2)扩充最优特征子集
一、计算每个特征对应的所有类别的可分性,选择 可分性最大的进入到最优子集当中;
二、增加一个特征构成新的特征集,重新计算特征 集合的可分性,选择最大的特征组合作为新的最 优子集。
实际的应用当中,要综合两种策略的思想,使 效率和模式分布能够达到平衡。如果模式分布 的比较均匀,选择哪一个策略Leabharlann Baidu是无关紧要的; 但是如果模式分布的不均匀,选择第一个策略 就必须考虑可分性准则的有效性,选择第二个 策略就必须考虑最难分的类别,提高分类精度。
B、选择特征的算法
定义:短时间内找出高光谱数据波段中最 优的一组特征常用算法介绍: (1)单独选择法
不减小。
光谱距离可分性准则
从n个特征中求取最有效的m个特征,相应的 组合方式有:C nm种,主要的考核指标: (1)各样本之间的平均距离; (2)类别间的相对距离; (3)离散度; (4)J-M距离; (5)基于熵函数的可分性准则
(1)各类样本间的平均距离
各类样本之间的距离越大,类别可分性越大,因此可 以利用各类样本之间的距离的平均值作为可分性的准 则。
满足光谱距离可分性的要求:
设计光谱可分性的准则必须满足三个方面的要 求:
(1)与错误概率具有单调关系,这样准则取最
大值的情况下,所得到的错误概率应该是最小 的。
(2)度量特性。设定两类地物类别i,j的度量特
性为
J
ij
,J
越大,两类特征的分离程度越大。
ij
(3)单调性,新加入的特征,准则函数的值并
三、重复执行第二步,直到最优的特征子集达到m 个为止。
(3)选择最难分类的类对做出正确分类贡献最大
一、根据类别可分性函数计算每一个类对的可分性, 找出最难分的类对。
二、计算各个特征对于最难分的类对的可分性,选 择可分性最大的特征进入最优子集。
三、增加一个特征,形成新的组合,计算新组合对 于最难分的类对的可分性,选择可分性最大的特 征组合作为新的最优特征子集。
选择步骤:
A、选择可分性准则,确定使用策略 B、确定选择特征的算法
A、选择可分性准则
选择可分性准则有两个策略: 一、选择各类平均可分性最大的特征 二、选择最难分的类别具有的可分性最大的特征
第一个策略比较难照顾到分布比较集中的类别,如 果使用这个策略,选用能均衡照顾到各类的可以弥 补其不足;第二个策略能照顾到最难分的类别,但 是可能会漏掉某些可分性最大的特征,从而使分类 精度下降。
四、重复执行第三步,直到最优的特征子集达到m。
(5)搜索树 是一种自上而下的搜索方法,具有回溯功
能,使得所有的特征组合都能被考虑到。搜 索树具有最大的特点是所用到的可分性函数 具有单调性,利用单调性的特点,减少对一 些特征组合的搜索。
必须指出的是以上的算法均假设各个特征之 间相互独立,没有考虑特征之间的相关性。 实际上,各个特征之间是存在相关性的,首 先应该剔除一些可分性小,与其他特征相关 性大的特征,选择最优,可分性最大的特征 组。
常用的距离函数有:欧氏距离,马氏距离,明氏距离 等。
p
欧几里德距离: dij (xki xkj)2 kl
需要注意:很多情况下,类别之间的平均距离并不一 定代表了类别之间的可分性。如下图所示
两种分布的可分离性比较
(2)类别间的相对距离
根据费歇尔准则,分类时总是希望类内的离散 度尽量小,类间的离散度尽量大,那么根据这 个定律,可以作为相对距离的一个度量,度量 的公式,都是根据类内和类间离散度矩阵来进 行定义。
光谱特征选择的策略按照以上选择的方法 来划分类别,我们从以下三个方面的内容 来具体介绍:
一、光谱距离统计
二、光谱特征位置搜索
三、光谱相关性分析
5.1.1 光谱距离统计
光谱距离统计是考虑在进行特征选择时,需要依据一定的 准则进行判断。类别可分性根据这些判据能够反映各类在 特征空间的分布情况,还能刻划各特征分量在分类识别中 的重要性或贡献。
四、重复执行第三步,直到最优的特征子集达到m。
(4)去掉最难分类正确分类贡献最小
一、根据类别可分性函数计算每一个类对的可分性,找 出最难分的类对。
二、计算各个特征对于最难分的类对的可分性,去掉择 可分性最小的特征,剩下特征作为最优子集。
三、减少一个特征,形成新的组合,计算新组合对于最 难分的类对的可分性,选择可分性最大的特征组合作 为新的最优特征子集。
高光谱遥感数据有助于我们完成更加细致的遥感地物分类 和目标识别,然而波段的增多也必然导致信息的冗余和数 据处理复杂性的增加。具体表现在:
(1)数据量急剧增加:波段的增加,使得高光谱数据比传 统数据多1-2个数量级,表现在显示,存储,管理方面相 当繁琐
(2)计算量增大:数据的膨胀导致计算机处理载荷大幅度 增加,寻找有效地降维空间手段是必要的
(3)离散度
相对距离是基于类间距离和类内方差,类内方 差越大,分类误差越大。而离散度则是基于条 件概率之差,表达式为:
D ijE [L 'i(jX )/w i]E [L 'i(jX )/w j]
L ij 代表某一点的似然比
L
' ij
代表似然比的自然对数
E 代表期望值
(4)J-M 距离
J-M距离也是基于类条件概率之差,与离散度 的评价方式一样,其表达式为:
(3)统计参数的估计误差增大:利用统计方法为了达到比 较精确的估计,样本个数一般是波段数的100倍以上,这 在高光谱数据中往往无法实现,因此,导致了分类精度的 普遍下降。
当光谱维数增加的时候,特征组合形式成指数倍 增加,如何优化光谱特征空间,进行光谱选择非 常重要。
5.1 光谱特征的选择
特征选择的方法是根据专家知识来进行挑选或者 是根据类别可分性准则选择。前者由于涉及到人 为的因素比较多,因此不作讨论;后者根据类别 可分性准则,挑选光谱特征。
Jij {[p (X /w i)p (X /w j)]2d} 1 X /2
x
J-M距离的组成成分与离散度是一样的,只是 函数表现形式不一样,因此,把离散度加以改 造,也能够很好的区分类别之间的距离和可分 离性。
根据可分性准则函数计算n个特征中每个特征可 分性,然后根据各个特征的可分性大小进行排序, 选择可分性最大的前m(n>m)个特征。
(2)扩充最优特征子集
一、计算每个特征对应的所有类别的可分性,选择 可分性最大的进入到最优子集当中;
二、增加一个特征构成新的特征集,重新计算特征 集合的可分性,选择最大的特征组合作为新的最 优子集。
实际的应用当中,要综合两种策略的思想,使 效率和模式分布能够达到平衡。如果模式分布 的比较均匀,选择哪一个策略Leabharlann Baidu是无关紧要的; 但是如果模式分布的不均匀,选择第一个策略 就必须考虑可分性准则的有效性,选择第二个 策略就必须考虑最难分的类别,提高分类精度。
B、选择特征的算法
定义:短时间内找出高光谱数据波段中最 优的一组特征常用算法介绍: (1)单独选择法
不减小。
光谱距离可分性准则
从n个特征中求取最有效的m个特征,相应的 组合方式有:C nm种,主要的考核指标: (1)各样本之间的平均距离; (2)类别间的相对距离; (3)离散度; (4)J-M距离; (5)基于熵函数的可分性准则
(1)各类样本间的平均距离
各类样本之间的距离越大,类别可分性越大,因此可 以利用各类样本之间的距离的平均值作为可分性的准 则。
满足光谱距离可分性的要求:
设计光谱可分性的准则必须满足三个方面的要 求:
(1)与错误概率具有单调关系,这样准则取最
大值的情况下,所得到的错误概率应该是最小 的。
(2)度量特性。设定两类地物类别i,j的度量特
性为
J
ij
,J
越大,两类特征的分离程度越大。
ij
(3)单调性,新加入的特征,准则函数的值并
三、重复执行第二步,直到最优的特征子集达到m 个为止。
(3)选择最难分类的类对做出正确分类贡献最大
一、根据类别可分性函数计算每一个类对的可分性, 找出最难分的类对。
二、计算各个特征对于最难分的类对的可分性,选 择可分性最大的特征进入最优子集。
三、增加一个特征,形成新的组合,计算新组合对 于最难分的类对的可分性,选择可分性最大的特 征组合作为新的最优特征子集。
选择步骤:
A、选择可分性准则,确定使用策略 B、确定选择特征的算法
A、选择可分性准则
选择可分性准则有两个策略: 一、选择各类平均可分性最大的特征 二、选择最难分的类别具有的可分性最大的特征
第一个策略比较难照顾到分布比较集中的类别,如 果使用这个策略,选用能均衡照顾到各类的可以弥 补其不足;第二个策略能照顾到最难分的类别,但 是可能会漏掉某些可分性最大的特征,从而使分类 精度下降。
四、重复执行第三步,直到最优的特征子集达到m。
(5)搜索树 是一种自上而下的搜索方法,具有回溯功
能,使得所有的特征组合都能被考虑到。搜 索树具有最大的特点是所用到的可分性函数 具有单调性,利用单调性的特点,减少对一 些特征组合的搜索。
必须指出的是以上的算法均假设各个特征之 间相互独立,没有考虑特征之间的相关性。 实际上,各个特征之间是存在相关性的,首 先应该剔除一些可分性小,与其他特征相关 性大的特征,选择最优,可分性最大的特征 组。
常用的距离函数有:欧氏距离,马氏距离,明氏距离 等。
p
欧几里德距离: dij (xki xkj)2 kl
需要注意:很多情况下,类别之间的平均距离并不一 定代表了类别之间的可分性。如下图所示
两种分布的可分离性比较
(2)类别间的相对距离
根据费歇尔准则,分类时总是希望类内的离散 度尽量小,类间的离散度尽量大,那么根据这 个定律,可以作为相对距离的一个度量,度量 的公式,都是根据类内和类间离散度矩阵来进 行定义。
光谱特征选择的策略按照以上选择的方法 来划分类别,我们从以下三个方面的内容 来具体介绍:
一、光谱距离统计
二、光谱特征位置搜索
三、光谱相关性分析
5.1.1 光谱距离统计
光谱距离统计是考虑在进行特征选择时,需要依据一定的 准则进行判断。类别可分性根据这些判据能够反映各类在 特征空间的分布情况,还能刻划各特征分量在分类识别中 的重要性或贡献。
四、重复执行第三步,直到最优的特征子集达到m。
(4)去掉最难分类正确分类贡献最小
一、根据类别可分性函数计算每一个类对的可分性,找 出最难分的类对。
二、计算各个特征对于最难分的类对的可分性,去掉择 可分性最小的特征,剩下特征作为最优子集。
三、减少一个特征,形成新的组合,计算新组合对于最 难分的类对的可分性,选择可分性最大的特征组合作 为新的最优特征子集。