eof分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

事实上,这种想法是可以实现的,主分量 分析方法就是综合处理这种问题的一种强有力 的工具。 主分量分析是把原来多个变量划为少数几 个综合指标的一种统计分析方法。 从数学角度来看,这是一种降维处理技术。
在实际问题研究中,为了全面、系统地分析问 题,我们必须考虑众多影响因素。这些涉及的 因素一般称为指标,在多元统计分析中也称为 变量。因为每个变量都在不同程度上反映了所 研究问题的某些信息,并且指标之间彼此有一 定的相关性,因而所得的统计数据反映的信息 在一定程度上有重叠。在用统计方法研究多变 量问题时,变量太多会增加计算量和增加分析 问题的复杂性,人们希望在进行定量分析的过 程中,涉及的变量较少,得到的信息量较多。 主成分分析正是适应这一要求产生的,是解决 这类题的理想工具。
主成分分析是一种经典的统计方法,它 对多元统计观测数据的协方差结构进行 分析,以期求出能简约地表达这些数据 依赖关系的主成分,也是一种特征提取 的方法。一般来说,主成分分析的实施 效果与评价指标间的相关程度高低成正 比。评价指标间相关程度越高,主成分 分析的效果就越好。PCA可以用于减少特 征空间维数、确定变量的线性组合、选 择最有用的变量、变量辨识、识别目标 或是异常值分组等。主分量子空间提供 了从高维数据到低维数据在均方误差意 义下的数据压缩,它能最大程度地减少 方差。
定义:记x1,x2,…,x P为原变量指标, z1,z2,…,z m(m≤p)为新变量指标
z1 l11 x1 l12 x2 l1 p x p z 2 l21 x1 l22 x2 l2 p x p .......... .. z l x l x l x mp p m m1 1 m 2 2
在统计学中,主成分分析(principal components analysis,PCA)是一种简化数 据集的技术。它是一个线性变换。这个变 换把数据变换到一个新的坐标系统中,使 得任何数据投影的第一大方差在第一个坐 标(称为第一主成分)上,第二大方差在第 二个坐标(第二主成分)上,依次类推。主 成分分析经常用减少数据集的维数,同时 保持数据集的对方差贡献最大的特征。这 是通过保留低阶主成分,忽略高阶主成分 做到的。这样低阶成分往往能够保留住数 据的最重要方面。但是,这也不是一定的, 要视具体应用而定。
主成分概念首先由 Karl Parson在1901年首先 提出,当时只是对非随机变量来讨论的。1933 年Hotelling将这个概念推广到随机变量,作 了进一步发展。把从混合信号中求出主分量 (能量最大的成份)的方法称为主分量分析 (PCA),而次分量(Minor Components, MCs) 与主分量(Principal Components, PCs)相 对,它是混合信号中能量最小的成分,被认为 是不重要的或是噪声有关的信号,把确定次分 量的方法称为次分量分析(MCA)。
四、 主分量分析方法应用实例
下面,我们根据表3.5.1给出的数据,对 某农业生态经济系统做主成分分析。
表3.5.1 某农业生态经济系统各区域单元的有关数据
人均耕 森林覆 经济作物占农 耕地占土地 果园与林 样本 人口密度 农民人均纯收入 人均粮食产量 地面积 盖率 作物播面比例 面积比率 地面积之 序号 x 1 /(人.km-2 ) x 4 /(元.人-1 ) x 5 /(kg.人-1 ) x 6 /% x 7 /% 比x 8 /% x 2 /hm2 x 3 /% 1 2 3 4 5 363.912 141.503 100.695 143.739 131.412 0.352 1.684 1.067 1.336 1.623 16.101 24.301 65.601 33.205 16.607 192.11 1 752.35 1 181.54 1 436.12 1 405.09 295.34 452.26 270.12 354.26 586.59 26.724 32.314 18.266 17.486 40.683 18.492 14.464 0.162 11.805 14.401 2.231 1.455 7.474 1.892 0.303
从以上的分析可以看出,主成分分析的 实质就是确定原来变量xj(j=1,2 ,…, p) 在诸主成分zi(i=1,2,…,m)上的荷载 lij ( i=1,2,…,m; j=1,2 ,…,p)。 从数学上可以证明,它们分别是相关矩 阵m个较大的特征值所对应的特征向量。
三、主分量分析的计算步骤
(一)计算相关系数矩阵
4.由主成分分析法构造回归模型。即 把各主成分作为新自变量代替原来自变 量x做回归分析。 5.用主成分分析筛选回归变量。回归 变量的选择有着重的实际意义,为了使 模型本身易于做结构分析、控制和预报, 好从原始变量所构成的子集合中选择最 佳变量,构成最佳变量集合。用主成分 分析筛选变量,可以用较少的计算量来 选择量,获得选择最佳变量子集合的效 果。
ห้องสมุดไป่ตู้




主分量分析又称主成分分析,也有称 经验正交函数分解或特征向量分析。 分析对象:以网格点为空间点(多个变量) 随时间变化的样本 。 主分量分析与回归分析、差别分析不同, 它是一种分析方法而不是一种预报方法 。 我们希望可以通过某种线性组合的方法使 某个变量或者某些变量的解释方差变得比 较大,这些具有较大解释方差的变量就称 为主分量。
k
1 , 2 ,, m 一般取累计贡献率达85%~95%的特征值 所对应的第1、第2、…、第m(m≤p)个主成分。
④ 计算主成分载荷
lij p( z i , x j ) i eij (i, j 1,2,, p)
(1.3.3)
⑤主成分计算概括以下几点:
(1.5.4)
三、主分量分析主要作用
ei (i 1,2,, p) ,要求 ei
2 其中 e表示向量 ij 1 j 1 p
=1,即 e eij 的第j个分量。i

③ 计算主成分贡献率及累计贡献率

贡献率
i

k 1
p
(i 1,2, , p )
k
累计贡献率

k 1 k 1 p
i
k
(i 1,2, , p )


例如,一个45度倾斜的椭圆,在第一坐标系,如 果按照x,y坐标来投影,这些点的x和y的属性很难 用于区分他们,因为他们在x,y轴上坐标变化的方 差都差不多,我们无法根据这个点的某个x属性来 判断这个点是哪个,而如果将坐标轴旋转,以椭 圆长轴为x轴,则椭圆在长轴上的分布比较长,方 差大,而在短轴上的分布短,方差小,所以可以 考虑只保留这些点的长轴属性,来区分椭圆上的 点,这样,区分性比x,y轴的方法要好! 所以我们的做法就是求得一个k维特征的投影矩阵, 这个投影矩阵可以将特征从高维降到低维。投影 矩阵也可以叫做变换矩阵。新的低维特征必须每 个维都正交,特征向量都是正交的。通过求样本 矩阵的协方差矩阵,然后求出协方差矩阵的特征 向量,这些特征向量就可以构成这个投影矩阵了。 特征向量的选择取决于协方差矩阵的特征值的大 小。
主分量分析与核主分量分析
第一节 主分量分析
第二节 核主分量分析
第一节 主分量分析

概 述 主分量分析的基本原理 主分量分析的计算步骤 主分量分析主要的作用 主分量分析方法应用实例
一、概述
许多系统是多要素的复杂系统,多变量问 题是经常会遇到的。变量太多,无疑会增加分 析问题的难度与复杂性,而且在许多实际问题 中,多个变量之间是具有一定的相关关系的。 因此,人们会很自然地想到,能否在相关 分析的基础上,用较少的新变量代替原来较多 的旧变量,而且使这些较少的新变量尽可能多 地保留原来变量所反映的信息?
举一个例子: 对于一个训练集,100个样本,特征是10 维,那么它可以建立一个100*10的矩阵,作为 样本。求这个样本的协方差矩阵,得到一个 10*10的协方差矩阵,然后求出这个协方差矩 阵的特征值和特征向量,应该有10个特征值和 特征向量,我们根据特征值的大小,取前四个 特征值所对应的特征向量,构成一个10*4的矩 阵,这个矩阵就是我们要求的特征矩阵, 100*10的样本矩阵乘以这个10*4的特征矩阵, 就得到了一个100*4的新的降维之后的样本矩 阵,每个样本的维数下降了。
r11 r 21 R rp1 r12 r22 rp 2 r1 p r2 p rpp
(1.3.1)
rij (i,j=1,2,…,p)为原变量xi 与xj的相关系数, rij=rji,其计算公式为
rij
(x
k 1 n k 1
(1.2.2)
系数lij的确定原则: ① z i与zj(i≠j;i,j=1,2,…,m)相 互无关;
② z1是x1,x2,…,xP的一切线性组合 中方差最大者,z2是与z1不相关的x1,x2,…, xP的所有线性组合中方差最大者;…; zm是与 z1,z2,……,zm-1都不相关的x1,x2,…xP, 的所有线性组合中方差最大者。 则新变量指标z1,z2,…,zm分别称为原 变量指标x1,x2,…,xP的第1,第2,…,第 m主成分。
n
ki
xi )( x kj x j )
2
( xki xi )
( x kj x j ) 2
k 1
n
(1.3.2)
(二)计算特征值与特征向量
① 解特征方程 I R 0 ,常用雅可比法 (Jacobi)求出特征值,并使其按大小顺序排 列 1 2 p 0 ; ② 分别求出对应于特征值 i 的特征向量
二、主分量分析的基本原理
假定有n个样本,每个样本共有p个变量, 构成一个n×p阶的数据矩阵
x11 x 21 X xn1 x12 x22 xn 2 x1 p x2 p xnp
(1.2.1)
当p较大时,在p维空间中考察问题比 较麻烦。为了克服这一困难,就需要进行 降维处理,即用较少的几个综合指标代替 原来较多的变量指标,而且使这些较少的 综合指标既能尽量多地反映原来较多变量 指标所反映的信息,同时它们之间又是彼 此独立的。


PCA主要用于数据降维,对于一组样本的特征 组成的多维向量,多维向量里的某些元素本身 没有区分性,比如某个元素在所有的样本中都 为1,或者与1差距不大,那么这个元素本身就 没有区分性,用它做特征来区分,贡献会非常 小。所以我们的目的是找那些变化大的元素, 即方差大的那些维,而去除掉那些变化不大的 维,从而使特征留下的都是最能代表此元素的 “精品”,而且计算量也变小了。 对于一个k维的特征来说,相当于它的每一维 特征与其他维都是正交的(相当于在多维坐标 系中,坐标轴都是垂直的),那么我们可以变 化这些维的坐标系,从而使这个特征在某些维 上方差大,而在某些维上方差很小。
3、多维数据的一种图形表示方法。我 们知道当维数大于3时便不能画出几何 图形,多元统计研究的问题大都多于3 个变量。要把研究的问题用图形表示 出来是不可能的。然而,经过主成分 分析后,我们可以选取前两个主成分 或其中某两个主成分,根据主成分的 得分,画出n个样品在二维平面上的分 布况,由图形可直观地看出各样品在 主分量中的地位,进而还可以对样本 进行分类处理,可以由图形发现远离 大多数样本点的离群点。
1.主成分分析能降低所研究的数据空间的维 数。即用研究m维的Y空间代替p维的X空间(m< p),而低维的Y空间代替 高维的x空间所损失 的信息很少。即:使只有一个主成分Y1(即 m =1)时,这个Y1仍是使用全部X变量(p个)得到 的。例如要计算Y1的均值也得使用全部x的均 值。在所选的前m个主成分中,如果某个Xi的 系数全部近似于零的话,就可以把这个Xi删除, 这也是一种删除多余变量的方法。 2.有时可通过因子负荷a'i'j的结论,弄清X 变量间的某些关系。
相关文档
最新文档