主成分分析与应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
200HZ
Βιβλιοθήκη Baidu
沿着某个x 轴的运动
(x0,y0,z0)
标准正交基
xA y A xB x yB xC yC
200hz拍摄10分钟,将有
10x60x200=120000
( xA , y A )
在线性代数中,这 组基本正交基表示 为行列向量线性无 关的单位矩阵
定义协方差矩阵
Cx是一个m*m的平方对称矩阵。 Cx对角线上的元素是对应的观测变量的方差。 非对角线上的元素是对应的观测变量之间的协方差。
1 T CX XX n 1
在对角线上的元素越大,表明信号越强,变量的重要性越 高;元素越小则表明可能是存在的噪音或是次要变量。 在非对角线上的元素大小则对应于相关观测变量对之间冗 余程度的大小。 一般情况下,初始数据的协方差矩阵总是不太好的,表现 为信噪比不高且变量间相关度大。PCA的目标就是通过基 变换对协方差矩阵进行优化,找到相关“主元”。 那么,如何进行优化?矩阵的那些性质是需要注意的呢?
目的
压缩变量个数
用较少的变量去解释原始数据中的大部分变量,剔除冗 余信息。即将许多相关性很高的变量转化成个数较少、能解 释大部分原始数据方差且彼此互相独立的几个新变量,也就 是所谓的主成分。 这样就可以消除原始变量间存在的共线性,克服由此造 成的运算不稳定、矩阵病态等问题。
PCA广泛用于化学实验数据的统计分析,进行数据降维、 变量提取与压缩、确定化学组分数、分类和聚类以及与其 他方法连用进行数据处理。 主成分计算方法有非线性偏最小二乘(NIPALS) 、乘幂法( POWER) 、奇异值分解(SVD) 和特征值分解( EVD) 等。 它们的原理基本上是基于特征值问题, 计算结果也基本相 同.
一个简单的模型 Question:
大量的变量代表可能变化的因素
光谱 限制因素
观测手段
电压
速度
实验环境
复杂、混乱、冗余
How
分析变量背后的关系? 一个简单的物理模型
这是一个理想弹簧运动规律的测定实验。假设球是连接在 一个无质量无摩擦的弹簧之上,从平衡位置沿 轴拉开一定 的距离然后释放。
[(xA , y A ), ( xB , yB ), ( xC , yC )]
问题
怎样才能最好的表示数据X? P的基怎样选择才是最好的?
p1 x x PX n 体现数据特征 what? how? 1 pm p1 x1 p1 xn Y pm x1 pm xn
数据被限制在一个向量空间中,能被一组基表示; 隐含的假设了数据之间的连续性关系。
PX Y
(1)
X表示原始数据集。X是一个m*n的矩阵,它的每一个 列向量都表示一个时间采样点上的数据X,在上面的 例子中,m=6,n=120000。 Y表示转换以后新的数据集。P是他们之间的线性转换。
有如下定义: pi表示P的行向量。 xi表示X的列向量(或者X)。 yi表示Y的列向量。 公式(1)表示不同基之间的转换,在线性代数中, 它有如下的含义: P是从X到Y的转换矩阵。 几何上来说,P对X进行旋转和拉伸得到Y 。 P的行向量,{p1,…pm} 是一组新的基,而Y是 原数据X在这组新的基表示下得到的重新表示。
b1 b 1 0 0 2 . 0 1 0 I B . . 0 0 1 bm
基变换
Q?
关 键 假 设
如何寻找到另一组正交基,它们是标准正交基的 线性组合,而且能够最好的表示数据集 ? 线性
SNR
n
2 signal 2 noise
2
2 ( x x ) i 1 i
n 1
是采样点云在长线方向上分布的方差,而 noise 是数据点在短线方向上分布的方差。 (b)对 P的基向量进行旋转使SNR和方差最大。
2 (a)摄像机A的采集数据。图中黑色垂直直线表示一组正交基的方向。 signal 2
(ai a)(bi b) n 1
协方差矩阵
A、B分别表示不同的观测变量 所记录的一组值。
将A,B写成向量的形 式:A=[a1,a2,…..an] B=[b1,b2,….bn] 协方差可以表示为:
2 AB
1 AB T n 1
那么,对于一组具有m个观测变量,n个采样时间点的采样数据X, 将每个观测变量的值写为行向量,可以得到一个m*n的矩阵
Y的列向量
?
pi xi yi p m xm
xi 与 p
中对应列的点积, 也就是相当于在对 应向量上的投影
方差和目标
混乱数据
噪音 旋转 冗余 A 噪音和旋转
B 冗余
C 协方差矩阵
D 协方差矩阵对角化
噪音和旋转
噪音对数据的影响是巨大的,如果不能对噪音进行区分,就不可能 抽取数据中有用的信息。噪音的衡量有多种方式,最常见的定义是信 噪比SNR(signal-to-noise ratio),或是方差比 2 :
冗余
1)该变量对结果没有影响;
不必要的变量
2)该变量可以用其它变量表示,从而造成数据冗余。 低冗余,相互独 立 二者高度 相关,冗 余
图表 3:可能冗余数据的频谱图表示。r1和r2分别是两个不同的观测变量。 (比如例子中的xa,yb)。最佳拟合线r2=kr1 用虚线表示。
2 AB
n
i 1
目录
什么是PCA 一个简单的模型引出的PCA PCA的代数原理 PCA求解 总结和讨论 应用领域
PCA
PCA(Principal component analysis),主元分析。 它是一种对数据进行分析的技术,最重要的应用是对原 有数据进行简化。 正如它的名字:主元分析,这种方法可以有效的找 出数据中最 “主要”的元素和结构,去除噪音和冗余, 将原有的复杂数据降维,揭示隐藏在复杂数据背后的简 单结构。 它的优点是简单,而且无参数限制,可以方便的应 用与各 个场合。