KL变换和主成分分析
主成分分析
实验三遥感图像的多光谱增强
一、目的和要求
学习和掌握主成分变换(K-L变换)的基本原理、方法及意义。
二、实验内容
主成分变换(K-L变换)
三、原理和方法
主成分变换(Principal Component Analysis),又称K-L变换。它的基本原理是:对某一多光谱图像实行一个线性变换,产生一组新的多光谱图像,使变换后各分量之间具有最小的相关性。它是一种常用的数据压缩方法,可以将具有相关性的多波段数据压缩到完全独立的前几个主分量上;同时由于主成分变换后的前几个主分量包含了主要的地物信息,噪声较少,因而可以突出主要信息,抑制噪声,达到图像增强的目的;另外,它也可以用于分类前的预处理,减少分类的波段数并提高分类效果,即作为特征选择的方法。
四、实验步骤
ERDAS 图标面板菜单条:Image Interpreter→Spectral Enhancement →Principial Comp →Pincipal Components对话框(图7-1)
图7-1 Principal Component对话框
在Pincipal Components对话框,需要设置下列参数:
(1) 确定输入文件(InPut Fille)为1anier.img。
(2) 定义输出文件(output File)为principal.img。
(3) 定义坐标类型(Coordinate Type)为Map.
(4) 处理范围确定(subset Definition),默认状态为整个图像范围。
(5) 输出数据类型(Ouput Data Type)为float single。
KL变换与主成分分析
KL变换与主成分分析
KL变换是一种通过数学变换来提取重要特征的方法。KL变换是一种线性变换,它将原始数据从一个表示域转换到另一个表示域。KL变换的主要思想是通过将数据在原始表示域中的协方差矩阵进行特征值分解,得到一组新的正交基向量,称为特征向量。这些特征向量对应于协方差矩阵的特征值,表示变换后的表示域中数据的主要方向。通过选择最重要的特征向量,可以获得原始数据的紧凑表示。
KL变换的应用非常广泛。在图像处理中,KL变换可以用于图像压缩和去噪。在语音处理中,KL变换可以用于语音识别和语音合成。在模式识别中,KL变换可以用于特征提取和数据降维。通过使用KL变换,可以提高数据的表示效率,并且在一定程度上保留原始数据的重要信息。
主成分分析(PCA)是一种与KL变换类似的数据变换方法,也用于特征提取和数据降维。PCA的主要思想是通过线性变换将原始数据投影到一个新的坐标系中,使得数据在新坐标系中的方差最大化。PCA的目标是找到一组正交基向量,称为主成分,它们能够最大化数据的方差。通过选择最重要的主成分,可以实现数据的降维。
虽然KL变换和PCA在算法和应用上有一定的差异,但它们的目标是相似的,都是通过数学变换来提取原始数据的重要特征。它们在很多领域都扮演着重要的角色,为实际问题的解决提供了有效的方法。此外,KL 变换和PCA还可以通过适当的改进和扩展来满足具体问题的需求。
总结起来,KL变换和PCA是两种常用的数学方法,用于特征提取和数据降维。它们的基本思想相似,但在具体算法和应用上有一些差异。KL 变换通过特征值分解协方差矩阵来提取特征,而PCA通过求解特征值问题
K-L
K-L变换也常称为主成分变换(PCA)或霍特林变换,是一种基于图像统计特性的变换,它的协方差矩阵除对角线以外的元素都是零,消除了数据之间的相关性,从而在信息压缩方面起着重要作用。
K-L变换是一种线性变换,而且是当取Y的前p(p<m)个主成分经反变换而恢复的图像和
原图像X在均方误差最小意义上的最佳正交变换。它具有以下性质和特点:
(1)由于K-L变换是正交线性变换,所以变换前后的方差总和不变,变换只是把原来的方差不等量的再分配到新的主成分图像中。
(2)第一主成分包含了总方差的绝大部分(一般在80%以上),其余各主成分的方差依次减小。
(3)可以证明,变换后各主成分之间的相关系数为零,也就是说各主成分间的内容是不同的,是“垂直”的。
(4)第一主成分相当于原来各波段的加权和,而且每个波段的加权值与该波段的方差大小成正比(方差大说明信息量大)。其余各主成分相当于不同波段组合的加权差值图像。
(5)K-L变换的第一主成分还降低了噪声,有利于细部特征的增强和分析,适用于进行高通滤波,线性特征增强和提取以及密度分割等处理。
(6)K-L变换是一种数据压缩和去相关技术,第一成分虽信息量大,但有时对于特定的专题信息,第五、第六主成分也有重要的意义。
(7)可以在图像中局部地区或者选取训练区的统计特征基础上作整个图像的K-L变换,则所选部分图像的地物类型就会更突出。
(8)可以将所有波段分组进行K-L变换,再选主成分进行假彩色合成或其它处理。
(9)K-L变换在几何意义上相当于进行空间坐标的旋转,第一主成分取波谱空间中数据散布最大的方向;第二主成分则取与第一主成分正交且数据散布次大的方向,其余依此类推。
模式识别5-1主成分分析和K-L变换
外贸平衡等等。
在进行主成分分析后,竟以97.4%的精度,用 三个新变量就取代了原17个变量。
根据经济学知识,斯通给这三个新 变量分别命名为总收入 F1 、总收入变化
率 F2 和经济发展或衰退的趋势 F3 。更有
意思的是,这三个变量其实都是可以直
接测量的。
主成分分析就是试图在力保数据信息丢 失最少的原则下,对这种多变量的数据表进 行最佳综合简化,也就是说,对高维变量空
• 例1: 从一个总体中随机抽取4个样本作三 次测量,每一个样本的观测向量为:
主成分分析
• 主成分分析PCA
– Principle Component Analysis
• 通过K-L变换实现主成分分析
PCA的变换矩阵是协方差矩阵,K-L变换的变 换矩阵可以有很多种(二阶矩阵、协方差矩阵、 总类内离散度矩阵等等)。当K-L变换矩阵为 协方差矩阵时,等同于PCA。
• K-L 坐标系的产生矩阵
PCA
• 多变量问题是经常会遇到的。变量太多,无疑会增加分析问 题的难度与复杂性.
• 在许多实际问题中,多个变量之间是具有一定的相关关系的。 因此,能否在各个变量之间相关关系研究的基础上,用较少 的新变量代替原来较多的变量,而且使这些较少的新变量尽 可能多地保留原来较多的变量所反映的信息?事实上,这种 想法是可以实现的.
x1
3.2. PCA: 进一步解释
k-l变换的基本原理
k-l变换的基本原理
KL变换(Karhunen-Loeve transform)是一种信号处理技术,也称为主成分分析(PCA)。
KL变换的基本原理是将数据集转换为线性无关的正交基向量表示。它通过将一组高维数据转换为一组低维数据,从中提取出数据的统计特征,尽可能地减少数据中的噪声,以达到对数据的压缩和降维目的。
KL变换的过程涉及到对数据的协方差矩阵进行特征值分解,得到特征向量和特征值。特征向量是数据在多维空间中的主要方向,也是一组基向量。通过将数据投影到这些主要方向上,得到一组低维度的数据表示,从而实现降维和压缩。
KL变换在图像、语音等信号处理领域有着广泛的应用。例如在图像压缩中,KL 变换可以将一张高分辨率的图片转换成一组低维度的数据向量,从而实现对图像的压缩和存储。
数字信号处理K-L变换,PCA主成分分析——例题
样本矩阵
幅值 x1 x2 x3 1 2 3 频率 1 2 3
相位 0 pi/2 pi/3
高斯白噪声 u ~ N(0,1),然后乘以相应幅值
采样率fs = 100,在时间t (0:1) 内,采100个点作为一个 样本,选取10个样本
组成 100行
10列的样本矩阵X
信号波形
协方差矩阵及特征值分解
C=cov(X); [P,lambda] = eig(C); %将lambda和P按降序排列 lambda=flipdim(lambda,1); lambda=flipdim(lambda,2); lambda=diag(lambda) P=flipdim(P,2);
Y = X*P;
Pareto图
k 0,1,, N 1
内积=在基向量上投影
nk x(n) WN
nk W , x(n)
PCA基本过程
1.形成样本矩阵
2.计算样本矩阵的协方差矩阵 3.对协方差矩阵进行特征值分解,选取最大的p个 特征值对应的特征向量组成投影矩阵 4.对原始样本矩阵进行投影,得到降维后的新样本 矩阵
X (k ) 源自文库 x(n) e
n 0 N 1 j 2 nk N
2 j N
每一行为一基向量
W0 W
1
W2 W
N 1
N 1 n 0
模式识别主成分分析和KL变换
模式识别:主成分分析和KL变换
什么是模式识别?
模式识别是一种利用计算机算法和数学方法,通过对给定数据进行处理和分析,找出其内在规律和模式的一种技术。模式识别在许多领域中都有应用,在人工智能、机器学习、数据挖掘等领域中都有广泛的应用。
主成分分析
主成分分析(Principal Component Analysis,PCA)是一种数据降维技术,可
以将高维数据降到低维,同时尽可能地保留数据的信息。PCA的一般思路是找到
一个新的坐标系,将数据映射到这个新的坐标系中,从而达到数据降维的目的。
主成分分析的基本实现步骤如下:
1.数据中心化。将各维度数据减去其均值,使其在新坐标系中保持原有
的方差(即去除数据的线性相关性)。
2.计算协方差矩阵。协方差矩阵的每个元素表示数据在不同维度上的相
关程度。
3.计算协方差矩阵的特征值和特征向量。特征向量描述了协方差矩阵的
方向,而特征值表示协方差矩阵沿该方向的大小。
4.选择最大特征值对应的特征向量,作为新的坐标系。
5.将数据映射到新的坐标系中。
,PCA算法是将高维数据转化为低维数据的过程,它可以快速识别数据的内在
结构,发现隐藏数据之间的相关性信息。
KL变换
KL变换(Karhunen-Loève Transform,KLT)又称作Hotelling变换,它是一
种优秀的信号处理技术,也常被用于模式识别。KL变换的主要目的是分离信号中
的信息和噪声成分,将重要信息提取出来,以便实现信号的压缩和去噪等操作。
KL变换的主要思路是将一组信号的协方差函数分析,然后求出其特征分解,
从而得到KL基函数。KL基函数是一组正交函数,它基于信号中的协方差函数进
k-l变换与pca的区别
k-l变换与pca的区别
K-L变换和PCA是两种常用的数据降维方法,它们在数学原理和应用场景上存在一些区别。
K-L变换(Karhunen-Loève Transform)是一种基于统计学原理的数据降维方法,也被称为主成分分析(Principal Component Analysis,PCA)。它通过线性变换将原始数据转换为一组互相不相关的变量,这些变量称为主成分。K-L变换的核心思想是通过找到能够最大程度保留原始数据方差的投影方向,从而实现数据降维。具体来说,它通过计算数据的协方差矩阵的特征向量和特征值,选取前k个最大特征值对应的特征向量作为主成分,然后将原始数据投影到这些主成分上,从而实现数据降维。
而PCA(Principal Component Analysis)是一种常用的无监督学习方法,用于数据的降维和特征提取。它通过线性变换将原始数据映射到一个新的坐标系中,新坐标系的选择是基于数据的协方差矩阵。PCA的目标是找到能够最大程度保留原始数据方差的投影方向,从而实现数据降维。具体来说,PCA通过计算数据的协方差矩阵的特征向量和特征值,选取前k个最大特征值对应的特征向量作为主成分,然后将原始数据投影到这些主成分上,从而实现数据降维。
从数学原理上看,K-L变换和PCA在计算主成分的方法上有一些区别。K-L变换是通过计算数据的协方差矩阵的特征向量和特征值来获取主成分,而PCA也是通过计算数据的协方差矩阵的特征向量和
特征值来获取主成分。但是,K-L变换在计算特征向量和特征值时使用的是样本协方差矩阵,而PCA使用的是数据的协方差矩阵。这个区别导致了K-L变换和PCA在计算主成分时得到的结果可能不同。此外,K-L变换还有一种基于奇异值分解的计算方法,可以有效地处理高维数据。
实验四_主成分变换
二、主成分逆变换 主成分逆变换(inverse principal components analysis)是将经主成分变换获得的图像重新恢复到R GB彩色空间,应用时输入的图像必须是由主成分变 换得到的图像,而且必须有当时的特征矩阵(*.mtx) 参与变换。 实验步骤:在ERDAS图标面板菜单中,单击 Main|Image Interpreter|Spatial Enhancement|Principial Comp|Pincipal Components 命令,打开Pincipal Components对话框。 在 Inverse Pincipal Components对话框中,需要设 置下列参数:
在Pincipal Components对话框中,需要设置下列参 数: (1)确定输入文件(Input File)为*.img (2)定义输出文件(Output File)为*_principal.img (3)文件坐标类型(Coordinate Type)为Map (4)确定处理范围(Subset Definition)。在ULX/Y、 LRX/Y微调框中输入需要的数值。 注意:默认为整个图像范围,可以应用Inquire Box定 义子区。 (5)确定输出数据类型(Output Data Type)为Float Single (6)特征矩阵输出设置(Eigen Matrix) 运行日志,写入特征矩阵文件,特征矩阵文件名 (7)特征数据输出设置(Eigen Value) (8)需要的主成份数量为3 (9)单击OK,执行主成份变换。
KL变换
1. 主分量分析(PCA )、K-L 变换(Hotelling 变换) 一般而言,这一方法的目的是寻找任意统计分布的数据集合之主要分量的子集。相应的基向量组满足正交性且由它定义的子空间最优地考虑了数据的相关性。将原始数据集合变换到主分量空间使单一数据样本的互相关性(cross-correlation)降低到最低点。
设s j x j ,...,1:=是N 维向量的数据集合,m 是其均值向量:
有了特征向量集合,任何数据x 可以投影到特征空间(以特征向量为基向量)中的表示:
相反地,任何数据x 可以表示成如下的线性组合形式:
如果用A 代表以特征向量为列向量构成的矩阵,则A T 定义了一个线性变换:
上述去相关的主分量分析方法可以用于降低数据的维数。通过略去对应于若干较小特征值的特征向量来给y 降维。例如,丢弃底下N-M 行得到N M ⨯的矩阵B ,
k
k s
j T
j j x j j j s
j j u d d s C m
x d d x s m 向量及满足下列条件的特征特征值求出其从大到小排列的协方差矩阵是:
是:
差别向量λ∑∑===-==1
1
11⎩⎨⎧≠===k
l k l u u k
l k T l ,0,1,δT N T k k y y y y m x u y ),...,,(,)(21=-=∑=+=s k k k u y m x 1⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡==+=-=N x T y T A C A C A Ay m x m x A y λλ00()
(1 :
变换后的协方差矩阵为是正交矩阵)
并为简单起见假定均值m=0,则有:
kl变换报告
博士□兽医硕士专业学位□
硕士□农业推广硕士专业学位□同等学力在职申请学位□中职教师攻读硕士学位□
工程硕士专业学位□高校教师攻读硕士学位□风景园林硕士专业学位□
西北农林科技大学
研究生课程考试试卷封面
(课程名称:)
学位课□选修课□补修课□
研究生年级、姓名
所在学院及专业
任课教师姓名
考试日期
考试成绩
评卷教师签字处
K-L 变换实验报告
摘要
K-L 变换,又称霍特林(Hotelling )变换或者主成分分析(PCA)是均方差意义下的最佳变换,其突出优点是相关性好,得到的主成分是互相线性不相关的。该方法是很多方面的常用算法,如人脸识别、图像压缩和信号传输等,其基本原理就是用较少数量的特征对样本进行描述以达到降低特征空间维数的方法,方法的基础是Karhunen-Loeve 展开式简称K-L 展开式。本报告介绍了K-L 变换的基本原理,及其应用该方法进行人脸识别的基本步骤,并比较了基于总体散布矩阵和类间散布矩阵做为产生矩阵的K-L 变换进行的人脸识别,并对识别率进行了统计。
1. K-L 变换的基本原理
特征脸方法是基于K-L 变换的人脸识别方法,K-L 变换是图像压缩的一种最优正交变换。高维的图像空间经过K-L 变换后得到一组新的正交基,保留其中重要的正交基,由这些基可以张成低维线性空间。如果假设人脸在这些低维线性空间的投影具有可分性,就可以将这些投影用作识别的特征矢量,这就是特征脸方法用于人脸识别的基本思想。在人脸识别中,可以用离散K-L 变换对人脸图像的原始空间进行转换,即构造人脸图像数据集的协方差矩阵,对之进行正交变换,求出协方差矩阵的特征向量,再依据特征值的大小对这些特征向量进行排序,每一个向量表示人脸图像中一个不同数量的变量,这些特征向量表示特征的一个集合,它们共同表示一个人脸图像。在人脸识别领域,人们常称这些特征向量为特征脸。每一个体人脸图像都可以确切地表示为一组特征脸的线性组合。这样我们首先通过有指导的训练(给定训练样本集已知分类)得到样本集在特征脸空间中的坐标。训练完成后,输入待辨识图像,求得在特征脸空间的坐标,采用最近邻法,就可以实现人脸识别。一般说K-L 变换是均方差意义下的最佳变换,理论推导如下。
数字图像 KL变换
1 主分量分析(K-L变换)
4)K-L变换的性质
1 F的均值为零
F E F E A f f AE f A f 0
2 F的协方差CF
CF E A f f f f T AT AC f AT
3 CF 为对角阵
aT
CF
AC f
AT
1
a2T
M
STEP3:定义变换核矩阵和反变换。
因此变换核矩阵为特征向量组成
1 2 L n
正交化后为*,将*T 记作A。 因此定义一维K L变换为
F *T f A f
反变换定义为
f *F AT F
1 主分量分析(K-L变换)
例
16 17 18 f1 160 f2 166 f3 169
Digital Image
的原点移到矩阵的中心 – Y=abs(X):对复数求模 – Y = log(X):计算自然对数。以e为底数的对数。 – B=ifft2(I):计算图像I的二维傅立叶变换的反
变换
Digital Image
MatLab函数
• 傅立叶变换
例:傅立叶正反变换
>> I=imread('lena.tif'); >> J=fft2(I); >> K=ifft2(J); >> subplot(2,2,1),imshow(I); >> subplot(2,2,2),imshow(log(abs(J)),[]); >> subplot(2,2,3),imshow(log(abs(fftshift(J))),[]); >> subplot(2,2,4),imshow(uint8(abs(K)));
KL变换与主成分分析
总结下,K-L变换的方法:对相关矩阵R的特征值由大到小进行排队,
则均方误差最小的x近似于:
矩阵形式:
上式两边乘以U的转置,得
向量y就是变换(降维)后的系数向量,在人脸识别Eigenface算法中就是用系数向量y代替原始特征向量x进行识别。
下面,我们来看看相关矩阵R到底是什么样子。
因此,我们可以看出相关矩阵R是一个实对称矩阵(或者严谨的讲叫正规矩阵),正规矩阵有什么特点呢??学过《矩阵分析》的朋友应该知道:
,则
在特征脸空间U的投影,可以表示为系数向量y:
U的维数为M×d,
的维数为M×1,y的维数d×1。若M为200*200=40000维,取200个主成分,即200个特征向量,则最后投影的系数向量y维数降维200维。
2、根据1中的式子,可以得出:
这里的x就是根据投影系数向量y重构出的人脸图像,丢失了部分图像信息,但不会影响图像质量。
主成分分析(PCA)是多元统计分析中用来分析数据的一种方法,它是用一种较少数量的特征对样本进行描述以达到降低特征空间维数的方法,它的本质实际上是K-L变换。PCA方法最著名的应用应该是在人脸识别中特征提取及数据维,我们知道输入200*200大小的人脸图像,单单提取它的灰度值作为原始特征,则这个原始特征将达到40000维,这给后面分类器的处理将带来极大的难度。著名的人脸识别Eigenface算法就是采用PCA算法,用一个低Baidu Nhomakorabea子空间描述人脸图像,同时用保存了识别所需要的信息。下面先介绍下PCA算法的本质K- L变换。
名词解释(含答案)
1.比值增强与差值增强
比值增强它是将图像每个像元的某一波段的数值(亮度值)与同一像元的另一波段的数值(亮度值)相除,用所得的新值作为该像元的新数值(亮度值),显示图像,即得到一幅得到比值增强的图像。
比值增强可压抑图像上不需要的影像信息,还可消除由于地形起伏而造成的阴影等干扰因素的影响,因此,比值增强常作为其它处理的前期处理,以得到更好的图像显示效果或分类精度。
差值增强它是将图像每个像元的某一波段的数值(亮度值)与同一像元的另一波段的数值(亮度值)相减,用所得的新值作为该像元的新数值(亮度值),显示图像,即得到一幅得到差值增强的图像。
差值增强可用于提取土壤背景的变化。
2.比值植被指数与归一化植被指数[2]
比值植被指数RVI:RVI = NIR/R
(1)绿色健康植被覆盖地区的RVI远大于1,而无植被覆盖的地面(裸土、人工建筑、水体、植被枯死
或严重虫害)的RVI在1附近。植被的RVI通常大于2;
(2)RVI是绿色植物的灵敏指示参数,与LAI、叶干生物量(DM)、叶绿素含量相关性高,可用于检测和
估算植物生物量
(3)植被覆盖度影响RVI,当植被覆盖度较高时,RVI对植被十分敏感;当植被覆盖度<50%时,这种敏
感性显著降低;
(4)RVI受大气条件影响,大气效应大大降低对植被检测的灵敏度,所以在计算前需要进行大气校正,
或用反射率计算RVI。
归一化植被指数NDVI:NDVI=(NIR-R)/(NIR+R)
(1)NDVI的应用:检测植被生长状态、植被覆盖度和消除部分辐射误差等;
(2)-1<=NDVI<=1,负值表示地面覆盖为云、水、雪等,对可见光高反射;0表示有岩石或裸土等,NIR
基于K-L变换的特征提取
λ1 , and α1 is the corresponding eigenvector. The variable ξ1 is the
first principal component and has the largest variance of any linear function of the original variables x1 , L , x p .
α1T Σα1 is equivalent to finding the
unconditional stationary value of
f (α1 ) = α1T Σα1 − να 1T α1
where v is the Lagrange multiplier. Differentiating with respect to each of the components of equating to zero gives
9.2 离散 K-L 展开
对随机向量 x ,用确定的完备正交归一向量系 u j , j = 1,2, L , ∞ 展开,得
x = ∑ c ju j ,
j =1
∞
c j = uT j x
(两边同乘以 u j 即得)
T
其中,
1 i = j u iT u j = 0 i ≠ j
只用有限项来逼近 x ,即
ˆ = ∑ c ju j x
4遥感图像变换——主成分分析(教案).docx
实验四遥感图像变换——主成分分析
一、主成分分析的思想与原理
主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数儿个综合指标。在实
证问题研究中,为了全面、系统地分析问题,必须考虑众多影响因素。这些涉及的因索一•般称为指标,在多元统计分析屮也称为变最。因为每个变量都在不同程度上反映了所研究问题的某些信息,并R指标Z间彼此冇一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在实际中研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解
决这类题的理想工具。而把主成分方法用在遥感图像的变换处理上称为遥感图像的主成分变换(K ・L变换)。原理如下:有矩阵:
T-
其中,m和n分別为波段数(或称变量数)和每幅图像中的像元数;矩阵中每一行矢量表示一个波段的图像。
对于一般的线性变换Y二TX,如果变换矩阵T是正交矩阵,并且它是由原始图像数据矩阵X 的斜方差矩阵S的特征向量所组成,则此式的变换称为K-L变换。
K-L变换的具体过程如F:
第一步,根据原始图像数据矩阵X,求出它的协方差矩阵S, X的协方差矩阵为:
■冈]—
式中:I-QX--;(即为笫i个波段的均值);
113 ;S是一个实对称矩阵。
笫二步,求S矩阵的特征值X和特征向量,并H成变换矩阵T。考虑特征方程:
式中,I为单位矩阵,U为特征向量。
解上述的特征方程即可求出协方差矩阵S的各个特征值人比坷3・心/排列,求得各特征值对应的单位特征向量(经归一化)UJ:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
归一化后构成变换矩阵 U。
U [u1, u2 , , ud ]
第四步:对{X}中的每个 X 进行 K-L 变换,得变换后向量 X * : X* UTX
d 维向量 X * 就是代替 n 维向量 X 进行分类的模式向量。
利用K-L变换进行特征提取的优点:
1)变换在均方误差最小的意义下使新样本集{X *}逼近原样本集 {X}的分布,既压缩了维数又保留了类别鉴别信息。
很显然,识辨系统在一个低维空间要比 在一个高维空间容易得多。
实例2: 成绩数据
• 100个学生的数学、物理、化学、语文、历 史、英语的成绩如下表(部分)。
从本例可能提出的问题
• 目前的问题是,能不能把这个数据的 6个变量用一两个综合变量来表示呢?
• 这一两个综合变量包含有多少原来的 信息呢?
• 能不能利用找到的综合变量来对学生 排序呢?这一类数据所涉及的问题可 以推广到对企业,对学校进行分析、 排序、判别和分类等问题。
u1 [0.66, 0.75]T
第四步:利用 U 对样本集中每个样本进行 K-L 变换。
X 1*
U T X1
[0.66
2 0.75]2 2.82
……
x2
变换结果为:
3 2
X2
X3
ω1
:
X
* 1
2.82
,
X
* 2
3.57
,
X
* 3
4.23
1
X1
ω2
:
X
* 4
2.82
在进行主成分分析后,竟以97.4%的精度,用 三个新变量就取代了原17个变量。
根据经济学知识,斯通给这三个新 变量分别命名为总收入F1、总收入变化 率F2和经济发展或衰退的趋势F3。更有 意思的是,这三个变量其实都是可以直 接测量的。
主成分分析就是试图在力保数据信息丢 失最少的原则下,对这种多变量的数据表进 行最佳综合简化,也就是说,对高维变量空 间进行降维处理。
(3)如何解释主成分所包含的几何意义或 经济意义或其它。
实例1: 经济分析
美国的统计学家斯通(Stone)在1947年关于国民 经济的研究是一项十分著名的工作。他曾利用美国 1929一1938年各年的数据,得到了17个反映国民收 入与支出的变量要素,例如雇主补贴、消费资料和 生产资料、纯公共支出、净增库存、股息、利息、 外贸平衡等等。
• 如果这些数据形成一个椭圆形状的 点阵(这在变量的二维正态的假定下 是可能的).
3.2 PCA: 进一步解释
• 椭圆有一个长轴和一 个短轴。在短轴方向上, 数据变化很少;在极端的 情况,短轴如果退化成一 点,那只有在长轴的方向 才能够解释这些点的变化 了;这样,由二维到一维 的降维就自然完成了。
5.1 基于K-L变换的多类模式特征提取
特征提取的目的: 对一类模式:维数压缩。 对多类模式:维数压缩,突出类别的可分性。
卡洛南-洛伊(Karhunen-Loeve)变换(K-L变换): * 一种常用的特征提取方法; * 最小均方误差意义下的最优正交变换; * 适用于任意的概率密度函数; * 在消除模式特征之间的相关性、突出差异性方面 有最优的效果。
K-L变换的不足之处: 1)对两类问题容易得到较满意的结果。类别愈多,效果愈差。
2)需要通过足够多的样本估计样本集的协方差矩阵或其它类 型的散布矩阵。当样本数不足时,矩阵的估计会变得十分粗略, 变换的优越性也就不能充分的地显示出来。
例5.3 两个模式类的样本分别为
ω1 : X1 [2, 2]T , X 2 [2, 3]T , X3 [3, 3]T
-4
-2
0
2
4
-4
-2
0
2
4
• 当坐标轴和椭圆的长短轴平行,那么代表长轴 的变量就描述了数据的主要变化,而代表短轴 的变量就描述了数据的次要变化。
• 但是,坐标轴通常并不和椭圆的长短轴平行。 因此,需要寻找椭圆的长短轴,并进行变换, 使得新变量和椭圆的长短轴平行。
• 如果长轴变量代表了数据包含的大部分信息, 就用该变量代替原先的两个变量(舍去次要的 一维),降维就完成了。
第二步:计算R的本征值,并选择较大者。由| R I | 0 得
1 12.85 , 2 0.15 ,选择 λ1 。
第三步:根据 Ru1 1u1 计算 λ1 对应的特征向量 u1 ,归一化后为
u1
1 [1, 1.14]T [0.66, 0.75]T 2.3
变换矩阵为
0.66 U [u1] 0.75
五、具体实例 六、 结论
七、练习
1. 前 言
• 假定你是一个公司的财务经理,掌握了公司的所有数 据,比如固定资产、流动资金、每一笔借贷的数额和 期限、各种税费、工资支出、原料消耗、产值、利润、 折旧、职工人数、职工的分工和教育程度等等。
• 如果让你介绍公司状况,你能够把这些指标和数字都 原封不动地摆出去吗?
2)变换后的新模式向量各分量相对总体均值的方差等于原样本
集总体自相关矩阵的大特征值,表明变换突出了模式类之间
的差异性。
1
0
C* E{(X * M *)(X * M *)T}
2
0
d
3)C*为对角矩阵说明了变换后样本各分量互不相关,亦即消
除了原来特征之间的相关性,便于进一步进行特征的选择。
3.1 PCA: 二维数据分析
• 例中的的数据点是六维的;也就是说,每个观测值 是6维空间中的一个点。我们希望把6维空间用低维 空间表示。
单科平均 成绩
74.1
74
平均成绩
73.7 69.8 61.3 72.5 77.2 72.3 63 72.3 70
70 66.4 73.6 63.3
• 先假定数据只有二维,即只有两个 变量,它们由横坐标和纵坐标所代表; 因此每个观测值都有相应于这两个坐 标轴的两个坐标值;
总样本数目为 N。将 X 变换为 d 维 (d n) 向量的方法:
第一步:求样本集{X}的总体自相关矩阵R。
R E[ XX T ] 1
N
N
X
j
X
T j
j 1
第二步:求 R 的特征值 λ j , j 1,2, , n 。对特征值由大到小
进行排队,选择前 d 个较大的特征值。
第三步:计算 d 个特征值对应的特征向量 u j , j 1,2, , d ,
,
X
* 5
3.57
,
X
* 6
4.23
x1 -3 -2 -1 0 1 2 3
-1
X4 -2
X6
X5 -3
X
6*X
* 5
X
* 4
X
* 1
X
* 2
X
* 3
X*
-5 -4 -3 -2 -1 0 1 2 3 4 5
5.2 主成分分析
• 主成分分析PCA
– Principle Component Analysis
代入X、Xˆ
,利用
uiT u j
1, 0,
j i ji
ξ E[
a
2 j
]
jd 1
ξ E[
a
2 j
]
jd 1
由 X a juj两边 左乘 uTj 得 a j uTj X 。 j 1
E[ uTj XX Tuj ]
jd 1
utj E[XX T ]uj
• 当然不能 • 你必须要把各个方面作出高度概括,用一两个指标简
单明了地把情况说清楚。
PCA
• 多变量问题是经常会遇到的。变量太多,无疑会增加分析问 题的难度与复杂性.
• 在许多实际问题中,多个变量之间是具有一定的相关关系的。 因此,能否在各个变量之间相关关系研究的基础上,用较少 的新变量代替原来较多的变量,而且使这些较少的新变量尽 可能多地保留原来较多的变量所反映的信息?事实上,这种 想法是可以实现的.
(1) 如何作主成分分析? 当分析中所选择的变量具有不同的量纲,变
量水平差异很大,应该选择基于相关系数矩阵 的主成分分析。
各个变量之间差异很大
(2) 如何选择几个主成分。
主成分分析的目的是简化变量,一般情况 下主成分的个数应该小于原始变量的个数。 关于保留几个主成分,应该权衡主成分个数 和保留的信息。
– 进行特征降维变换,不能完全地表示原有的 对象,能量总会有损失。
– 希望找到一种能量最为集中的的变换方法使 损失最小
内容
一、前 言
二、问题的提出
三、主成分分析
• 1. 二维数据的例子 • 2. PCA的几何意义 • 3. 均值和协方差、 特征值和特征向量 • 4. PCA的性质
四、主成分分析的算法
uj为确定 性向量
jd 1
uTj Ruj
R:自相关矩阵。
jd 1
不同的{u j } 对应不同的均方误差, u j 的选择应使 ξ 最小。
利用拉格朗日乘数法求使 ξ 最小的正交系{u j } ,令
g(uj )
u
T j
R
u
j
j (uTj u j 1)
jd 1
U TU
wk.baidu.com
uu12TT
[u1
u2
ud ] I
udT
对式(5-49)两边左乘U t :a U T X —— K-L变换
系数向量a就是变换后的模式向量。
2.利用自相关矩阵的K-L变换进行特征提取
设 X 是 n 维模式向量,{X}是来自 M 个模式类的样本集,
说明:当用X的自相关矩阵R的特征值对应的特征向量展开X
时,截断误差最小。
选前d项估计X时引起的均方误差为
u
T j
R
u
j
tr[
u
j
R
u
T j
]
λj
jd 1
j d 1
j d 1
λ j 决定截断的均方误差, λ j 的值小,那么 ξ 也小。
因此,当用X的正交展开式中前d项估计X时,展开式中
• 主成分分析原理: 是把原来多个变量化为少数几个综合指标 的一种统计分析方法,从数学角度来看,这是一种降维处理 技术。
• 主成分分析方法就是综合处理这种问题的一种强有力的方法。
2. 问题的提出
在力求数据信息丢失最少的原则下,对高维的 变量空间降维,即研究指标体系的少数几个线性组 合,并且这几个线性组合所构成的综合指标将尽可 能多地保留原来指标变异方面的信息。这些综合指 标就称为主成分。要讨论的问题是:
分为: 连续K-L变换 离散K-L变换
1.K-L展开式 设{X}是 n 维随机模式向量 X 的集合,对每一个 X 可以
用确定的完备归一化正交向量系{u j } 中的正交向量展开:
X a juj j 1
d
用有限项估计X时 :Xˆ a juj j 1
aj:随机系数;
引起的均方误差: E[( X Xˆ )T ( X Xˆ )]
ω2 : X 4 [2, 2]T , X5 [2, 3]T , X 6 [3, 3]T 利用自相关矩阵R作K-L变换,把原样本集压缩成一维样本集。
解:第一步:计算总体自相关矩阵R。
R
E{XX T}
1 6
6 j 1
X
j
X
T j
5.7 6.3
6.3 7.3
• 椭圆(球)的长短轴相差得越大,降维也越有 道理。
进一步解释PCA(续)
• 对于多维变量的情况和二维类似,也 有高维的椭球,只不过无法直观地看 见罢了。
• 首先把高维椭球的主轴找出来,再用 代表大多数数据信息的最长的几个轴 作为新变量;这样,主成分分析就基 本完成了。
的uj应当是前d个较大的特征值对应的特征向量。
K-L变换方法:
对R的特征值由大到小进行排队:λ1 λ2 λd λd1
d
均方误差最小的X的近似式: X ajuj —— K-L展开式
j 1
矩阵形式:
X Ua
(5-49)
式中,a [a1, a2 , , ad ]T ,U nd [u1, , u j , , ud ] 。 其中:uj [u j1,u j2, ,u jn ]T
jd 1
λ j :拉格朗日乘数
g(uj )
uTj Ru j
j
(u
T j
u
j
1)
jd 1
jd 1
用函数 g(u j ) 对 u j 求导,并令导数为零,得
(R j I )u j 0 j d 1, ,
——正是矩阵 R 与其特征值和对应特征向量的关系式。
• 通过K-L变换实现主成分分析
PCA的变换矩阵是协方差矩阵,K-L变换的变 换矩阵可以有很多种(二阶矩阵、协方差矩阵、 总类内离散度矩阵等等)。当K-L变换矩阵为 协方差矩阵时,等同于PCA。
• K-L变换特征提取思想
– 用映射(或变换)的方法把原始特征变换为 较少的新特征
– 降维
• 主成分分析(PCA)基本思想