主成分分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
浅析主成分分析法的原理
张小丽
(武汉大学遥感信息工程学院,湖北武汉,430079)
【摘要】图像特征是图像分析的重要依据,获取图像特征信息的操作称为特征提取。它作为模式识别,图像理解或信息量压缩的基础是很重要的。在目前的遥感图像处理研究中,多利用光谱特征。主成分分析也称为K-L变换,是在统计特征基础上的多维(如多波段)正交线性变换,也是遥感数字图像处理中最常用的一种变换算法。本文就对光谱特征提取的主成分分析方法分析其原理,具体步骤及优缺点。
【关键词】遥感图像;特征提取;光谱特征;主成分分析
1 引言
以计算机自动分类为研究方向的遥感图像解译技术的一般工作流程是图像预处理、特征提取、特征选择、分类处理。在这三项工作中,特征提取、特征选择是保证遥感图像分类精度的关键。
遥感图像模式的特征主要表现为光谱特征、纹理特征以及形状特征三种。特征提取分为光谱特征提取、纹理特征提取,形状特征提取。光谱特征提取和纹理特征提取分别对应于影像要素级序中的初级和第二级影像要素,目前应用较多的是光谱特征提取。光谱特征提取常采用K-T变换、K-L变换。
2 光谱特征
光谱特征是图像中目标物的颜色及灰度或者波段间的亮度比等。光谱特征通过原始波段的点运算获得。光谱特征的特点是,它对应于每个像元,但与像元的排列等空间结构无关。光谱特征是一种地物区别于另一种地物的本质特征,是组成地物成分、结构等属性的反映,正常情况下不同地物具有不同的光谱特征(在一些特殊情况下会出现同物异谱、同谱异物现象),因此根据地物光谱特征可以对遥感图像进行特征提取。在遥感图像的所有信息中最直接应用的是地物的光谱信息,地物光谱特性可通过光谱特征曲线来表达。遥感图像中每个像素的亮度值代表的是该像素中地物的平均辐射值,它随地物的成分、纹理、状态、表面特征及所使用电磁波波段的不同而变化。
3 K-L变换(主成分分析)
3.1原理
K-L变换即主成分分析。主成分变换具有方差浓聚、重新分配、数据量压缩的作用,并且可更准确、特征地揭示多波段数据结构内部的遥感信息。
主成分分析是着眼于变量之间的相互关系,尽可能不丢失信息地用几个综合性指标汇集多个变量的测量值而进行描述的方法。把P个变量(P维)的测量值汇集于m个(m维)主成分。在多光谱图像中,由于各波段的数据间存在相关的情况很多,通过采用主成分分析可以把图像中所含的大部分信息用假想的少数波段显示出来,几乎不丢失信息但数据量大大减少。
图1 K-L变换示意图
主成分分析的原理如图1所示。
原数据为二维数据(由2个波段组成的多光谱图像数据),两个波段(x1,x2)数据间有相关性,具有如图1所示的分布形状。沿分布形状做成新轴(z),把各数据投影到z轴上。通过投影,各数据可以表示为z轴上的点数据(一维)。由于原数据投影到z轴上,从原数据到z轴上的距离所对应的信息就会丢失。按照使投影到z轴上的信息量(方差的大小)尽可能大的原则确定z轴的取向。使丢失的信息量尽可能少,使原数据用z轴上的一维数据更真实地近似表示出来。
新轴(第一主成分)生成后,为了进一步汇集剩余的信息,求出与第一根轴正交,而且能尽可能多地反映剩余信息的另一根轴(第二主成分)。由于原数据是二维的,所以到第二主成分就可以表示出全部的信息。在多维数据中,可以取得与它的维数相等的主成分数。然而,随着主成分的序号增大,新获得的信息量减少,所以当获得的信息量(方差)的累积量为全部信息量(方差)的8成左右,主成分的提取往往会终止。
3.2主成分分析的具体步骤如下:
设原始图像数据矩阵为:
其中,p和n分别为波段数(或称变量数)和每幅图像中的像素数:矩阵中每一行向量表示一个波段的图像。
根据原始图像数据矩阵x,求出它的协方差矩阵s
式中:
求s 矩阵的特征值λ和特征向量ν,并组成变换矩阵Т,具体如下:
考虑特征方程:
s ν=λν
解方程,求出协方差矩阵s 的特征值(1,2,...,)j j p λ=,将其按12...p λλλ≥≥≥排列,求得各特征值对应的经归一化后的单位特征向量j
ν:
以各特征向量为列构成矩阵,即:
V 矩阵的转置矩阵即为所求的主成分分析的变换矩阵Т。
将变换矩阵T 代入Y=TX ,则:
式中Y 矩阵的行向量
经过主成分变换后,得到一组(P 个)新的变量(即Y 的各个行向量),它们依次被称为第一主成分,第二主成分,...第p 主成分。这时若将Y 矩阵的各行回复为二维图像时,即可以得到p 个主成分图像。
4小结
从上述过程中可以看出,主成分分析就是用得最多的一种线性变换方法,它产生一个新的图像序列,使图像按信息含量(或方差)由高到低排列,图像之间的相关性基本消除。用前几个主成分就可以表述原始数据中绝大多数信息含量,这是信息含量在最小均方差意义上
的最优解。主成分分析法的关键是求数据协方差矩阵的特征值和特征向量,但它在对数据的处理过程中只考虑了图像数据中的二阶统计信息,从而容易丢失图像中的重要的非线性特征信息。而且信息过分集中的主成分图像往往并不一定有利于分析应用。
参考文献
[1]骆玉霞,陈焕伟.遥感图像的特征提取与选择研究.信息记录材料,2002,2.
[2]严红萍,俞兵.主成分分析在遥感图像处理中的应用.中国期刊全文数据库(中国知网),2006.
[3]闫守邑,等.在GIS支持下的遥感图像分类[J].遥感信息,1995(3).