主成分分析与因子分析(第20章)
主成分与因子分析
主成份分析与因子分析转载自网站/teachers/lidf/docs/statsoft/html/statsoft.html作者:北京大学概率统计系李东风现实中的统计对象经常用多个指标来表示,比如人口普查,就可以有姓名、性别、出生年月日、籍贯、婚姻状况、民族、政治面貌、地区等,企业调查,可以有净资产、负债、盈利、职工人数、还贷情况等等。
多个指标(变量)可以分别进行分析,但是,我们往往希望综合使用这些指标,这时,有主成份分析、因子分析等方法可以把数据的维数降低,同时又尽量不损失数据中的信息。
I. 主成份分析一、理论介绍主成份分析的目的是从原始的多个变量取若干线性组合,能尽可能多地保留原始变量中的信息。
从原始变量到新变量是一个正交变换(坐标变换)。
设有是一个维随机变量,有二阶矩,记,。
考虑它的线性变换易见如果要用尽可能多地保留原始的的信息,经典的办法是使的方差尽可能大,这需要对线性变换的系数加限制,一般要求它是单位向量,即。
其它的各也希望尽可能多地保留的信息,但前面的已保留的信息就不再保留,即要求,同时对也有的要求,在这样的条件下使最大。
设协方差阵的特征值为,相应的单位特征向量分别为(当特征根有重根时单位特征向量不唯一)。
这时的第个主成分为,,且。
记,,,则为正交阵,,,且,其中为的主对角线元素。
主成份与原始变量的相关系数称为因子负荷量(factor loading),可以证明,,。
为了减少变量的个数,希望前几个就可以代表的大部分信息。
定义为主成份的贡献率,称为主成份的累计贡献率。
一般取使得累计贡献率达到70%-80%以上。
累计贡献率表示个主成份从中提取了多少信息,但没有表达用它来恢复每一个能恢复多少,为此定义个主成份对原始变量的贡献率,为对的复相关系数平方,可以用公式计算(注意时)。
前个主成份在的个线性组合中能对最好地线性逼近。
在上面的主成份计算方法中,方差越大的变量越被优先保留信息,实际中为了消除这种影响经常把变量标准化,即令这时的协方差阵就是的相关阵。
主成分分析与因子分析
什么是主成分分析?
将彼此相关的指标变量转化为 彼此不相关的指标变量; 将个数较多的指标变量转化为 个数较少的指标变量。 将意义单一的指标变量转化为 意义综合的指标变量。
第一节 主成分分析的基本原理
最简情形: 相关数据的散点图: 序号 胸围 体重 Id x1 x2 ……
基本原理
原坐标系: 。x1,x2相关 。x1,x2变异均匀 新坐标系: 。Z1,Z2不相关 。Z1,Z2变异不均匀 var(Z1)>var(Z2)
坐标变换公式: z1= cosθx1 + sinθx2 + c1 z2=-sinθx1 + cosθx2 + c2
坐标变换
忽略不计
分析难度增加
multivariate
儿童生长发育指标
身高,腿长,臂长 长度 肩宽,胸宽,臀骨宽 宽度 胸围,臂围,大腿围 围度 如果分别用每一个指标对儿童的生长发育做评价,评价孤立,非综合。 如果仅选用其中的几个独立的指标,失去了许多有用的信息,容易得出片面结论。
Error Sign
问 题
寻找一种合理的综合性方法,使得: 减少指标变量的个数。 尽量不损失或者稍损失原指标变量中所包含的信息。(用方差衡量) 使得原本相关的指标转化为彼此不相关(用相关系数阵衡量)
多元统计分析中存在的问题和解决方法
主要存在问题 多指标问题
主要解决方法 主成分分析 因子分析 结构方程模型
例1的相关系数表
心象 性别 年龄 身高 体重 胸围 y x1 x2 x3 x4 x5 性别 年龄 身高 体重 胸围
Multicollinearity !!
例1 的回归分析结果:
模型总体检验:, 参数估计和检验 Var DF Est SE t Prob > |T| Int 1 54.58 124.3 0.439 X1 1 -7.76 8.07 -0.962 X2 1 0.12 0.18 0.672 X3 1 0.29 0.42 0.693 X4 1 1.12 2.26 0.497 X5 1 -0.94 2.33 -0.404
因子分析、主成分分析
通过主成分分析,可以研究多个变量之间的相关性,揭示变量
之间的内在联系。
多元回归分析
03
在多元回归分析中,主成分分析可以用来消除变量间的多重共
线性,提高回归分析的准确性和稳定性。
金融数据分析
风险评估
在金融数据分析中,主成分分析可以用来评估投资组合的风险, 通过提取主要因子来反映市场的整体波动。
市场趋势分析
主成分分析案例:金融数据分析
总结词
主成分分析用于金融数据分析中,能够 降低数据维度并揭示主要经济趋势。
VS
详细描述
在金融领域,主成分分析被广泛应用于股 票、债券等资产组合的风险评估和优化。 通过对大量金融数据进行主成分分析,可 以提取出几个关键主成分,这些主成分代 表了市场的主要经济趋势。投资者可以利 用这些信息进行资产配置和风险管理。
特征提取
主成分分析能够提取出数据中的 主要特征,突出数据中的主要变 化方向,有助于揭示数据的内在 规律。
数据可视化
降低数据维度后,数据的可视化 变得更加容易,有助于直观地理 解和分析数据。
多元统计
多元数据描述
01
主成分分析可以用来描述多元数据的总体特征,提供对多元数
据分布的整体理解。
多元相关分析
02
目的
通过找出影响观测变量的潜在结构, 更好地理解数据的意义,简化复杂数 据的分析,并解决诸如多重共线性等 问题。
因子分析的原理
1 2 3
基于相关性
因子分析基于观测变量之间的相关性,通过找出 这些相关性背后的公因子来解释变量之间的依赖 关系。
降维
通过提取公因子,将多个观测变量的复杂关系简 化为少数几个潜在因子的线性组合,实现数据的 降维。
主成分分析与因子分析
∴
( yk ,xi )
k ii
tik
4. m个主成分对原始变量的贡献率
用xi 与 y1 , …, ym 的复相关系数的平方,作为
度量主成分y1 , …, ym包含有 xi 的信息多少的指标
称为m个主成分y1 , …, ym对原始变量xi的贡献率,
记为νi( i21 m)。
m
m
ቤተ መጻሕፍቲ ባይዱ
i 2 ( xi ,y j ) jti2j / ii
载荷矩阵
∵ X=T y 其中 T = ( tij )
x1 x2
t11 t21
t12 t22
x p
t p1
t p2
t1 p t2 p
y1 y2
t
pp
y
p
选取前m个主成分,记
xˆ 1
一般地,第 i 主成分为:
y i tiT x
var yi i ,
i 1, p
主成分的性质
1.主成分的协方差矩阵
Y
y1
,
1
0
y p
0
p
由于 Y T T X X TY
var(Y ) var( T T x ) T T var( x )T T T T TTTTTT
标准化主成分 f 的载荷矩阵
先对m个主成分 的方差标准化,再求出主 成分的载荷矩阵。令:
主成分分析和因子分析(朱艳科)
主成分分析和因子分析法一、主成分分析概论主成分分析的工作对象是样本点×定量变量类型的数据表。
它的工作目标,就是要对这种多变量的平面数据表进行最佳综合简化。
也就是说,要在力保数据信息丢失最少的原则下,对高维变量空间进行降维处理。
很显然,识辨系统在一个低维空间要比一个高维空间容易得多。
英国统计学家斯格特(M.Scott )在1961年对157个英国城镇发展水平进行调查时,原始测量的变量有57个。
而通过主成分分析发现,只需5个新的综合变量(它们是原变量的线性组合),就可以95%的精度表示原数据的变异情况,这样,对问题的研究一下子从57维降到5维。
可以想象,在5维空间中对系统进行任何分析,都比在57维中更加快捷、有效。
另一项十分著名的工作是美国的统计学家斯通(Stone)在1947年关于国民经济的研究。
他曾利用美国1929~1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息和外贸平衡等等。
在进行主成分分析后,竟以97.4%的精度,用三个新变量就取代了原17个变量。
根据经济学知识,斯通给这三个新变量要别命名为总收入1F 、总收入变化率2F 和经济发展或衰退的趋势3F (是时间t 的线性项)。
更有意思的是,这三个变量其实都是可以直接测量的。
二、主成分分析的基本思想与理论1、主成分分析的基本思想在对某一事物进行实证研究中,为了更全面、准确地反映出事物的特征及其发展规律,人们往往要考虑与其有关系的多个指标,这些指标在多元统计中也称为变量。
这样就产生了如下问题:一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标,而另一方面随着考虑指标的增多增加了问题的复杂性,同时也由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信息有时甚至会抹杀事物的真正特征与内在规律。
基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。
主成分分析和因子分析
SPSS操作:分析——描述统计——描述
第4题
朗莱曾分析美国联邦政府雇员人数(Y)与国民总产出 隐含平减指数(X1),国民总产出(X2),失业人数( X3),武装力量人数(X4),14岁及以上非慈善机构人 口数(X5),时间变量(X6)等的关系,数据如下。他 利用了美国47—62年数据(如下)做多元线性回归。现 请你重新做下朗莱的工作,判断有无多重共线性,如有 ,试用主成分法回归分析消除多重共线性。
计算各企业经济效益的综合得分
由综合得分可排出企业经济效益的名次。
九章第2题
在企业经济效益的评价中,涉及的指标往往很多.为了简化系 统结构,抓住经济效益评价中的主要问题,可利用主成分分析法进 行综合评价。在对我国部分省,市,自治区独立核算的工业企业的 经济效益评价中,涉及到9项指标,用主成分分析进行综合评价。
第一主成分的方差为3.686,第二主成分的 方差为1.237 根据成分矩阵得到两个主成分的线性方程:
计算两个主成分对应的值:
两个主成分对应值如下表:
做标准化的因变量与主成分的线性回归:
原始变量均值和标准差如下表:
第5题
经济工作者希望通过国内总产值x1,存储量x2, 消费总量x3,去预测进口总额y,为此收集了某地区 共计十一年的有关数据,利用主成分估计建立回归 方程。
第一主成分得分
2.858915 3.756416 -0.54939 -1.73507 -3.08695 0.320264
主成分分析和因子分析案例分析PPT课件
+姓名
主成分分析
基础概念:主要成分分析就是考虑各指标之间的相互关系,利用降维方法将 多个指标转换为少数几个互不相关的指标,从而使进一步研究变得简单的一 种统计方法。
分析步骤: (1)原始数据标准化处理 (2)计算相关数矩阵 (3)计算特征值及单位特征向量 (4)计算主成分的方差贡献率和累积方差贡献率 (5)计算主成分
试分析一个国家参与经济全球化的过程主要受哪些因素影响?
从数据来看,一共15个因 素,但有些因素是存在相 关性的,同时各因素对全 球化影响程度也不一样, 故可采用主成分分析。
确定变量及相关步骤
因子分析结果
(1)特征值和方差贡献值
从表中可看前3个主成分已经 解释了总方差的近86.7%,故 可以选择前3个主成分进行分 析。
谢谢大家
荣幸这一路,与你同行
It'S An Honor To Walk With You All The Way
演讲人:XXXXXX 时 间:XX年XX月XX日
表明因子提取方法是 主成分分析,旋转的 方法是方差极大法。
得出结论:北京受x1-x15因素的影响排在第一位。山东排在最后一位。
结束语
当你尽了自己的最大努力时,失败也是伟大的, 所以不要放弃,坚持就是正确的。
When You Do Your Best, Failure Is Great, So Don'T Give Up, Stick To The End
旋转后的因子载荷矩阵
是按照前面设定的“方差极大法”对因子载荷矩 阵旋转的结果。在旋转前的的矩阵中,因子变 量在许多变量上均有较高的载荷,从旋转后的 因子可以看出,因子1在1、3、6、7、12、13、 14上有较大载荷,反映科技投入与产出情况, 可以命名为创新水平因子:因子2在指标5、8、 15上较大载荷,反映地区经济发展及财政科技 投入水平,可以命名为创新因子;因子3在指 标9和10上有较大载荷,可以命民为高科技产 业发展因子。
主成分分析与因子分析
在实际工作中,为了全面的分析问题,往往会收集很多变量,这些变量之间通常都会存在大量重复信息,如果直接用来分析,不但计算繁琐,模型复杂,而且还有一个更严重的问题就是共线性问题,前面提到过共线性问题会导致模型误差增大,失去意义。
当面对变量过多时,通常的处理方法是降维,即设法将原来众多具有一定相关性的变量,重新组合成一组新的互相无关的综合变量,这些综合变量要尽可能多的反映原有变量的信息。
降维的方法有很多,其中最常用的就是主成分分析和因子分析一、主成分分析(Principal Component Analysis,PCA)1.基本思路设有n个原始变量,如果将它们都用散点图表示,会发现一些变量是存在某种线性关系的,这就是共线性,我们可以利用这个特点,创建一个变量Yi,使它成为某些原始变量的线性组合结果Yi =β+β1x1+...βnxn,这样处理之后,n个原始变量就转化为i个新变量,这i个新变量不同程度的反映了原始变量的信息,并且互不相关,这就解决了共线性问题。
那么接下来的问题是,n个变量的线性组合有很多种,我们取哪种结果作为新变量呢?经典的方法就是根据方差来判断,方差越大,变异越大,而我们的目的并不是消除变异,而是用尽可能少的新变量表示大部分原始变量,因此变异信息也必须尽量完整的反映。
我们将新变量按照方差大小排序,最大者也就是包含变异最多的为第一主成分,以此类推,通常只取前面几个最大的主成分,这样虽然损失部分信息,但是抓住了主要变异,如果全都取的话是没有意义的,因为原则上有多少个原始变量,就可以提取多少个主成分,但是这样做违背了降维的目的,多数情况下,取钱2-3个主成分就可以代表90%以上的变异信息,其余的可以忽略不计。
2.计算过程前面讲了PCA的基本思路,现在用具体数学算法来加以实现<1>数据标准化由于每个变量都有自己的数量级和量纲,首先要对变量进行标准化处理以消除这方面的差异<2>计算协方差矩阵或相关系数矩阵对于一维数据,也就是一个变量的数据,我们可以用均值、方差、标准差来描述,而协方差用于衡量两个变量的总体误差,如果多于两个变量,那就要用协方差矩阵来表示。
《主成份与因子分析》课件
助我们理解变量之间的关系。
因子分析的原理和步骤
1
原理
通过假设存在一些潜在的因子来解释观测数据中的相关性。
2
步骤
1. 确定因子数目 2. 估计因子载荷矩阵 3. 旋转因子载荷矩阵 4. 解释因子载荷矩阵 5. 命名解释出的因子
3
总结与展望
因子分析可以帮助我们理解观测数据中的潜在结构与因果关系。
区别与联系
主成份与因子分析
在这份PPT课件中,我们将探讨主成份与因子分析的定义、背景以及它们在 不同领域的应用。我们还将介绍分析的原理和步骤,并通过案例研究加深理 解。让我们一同进入这个令人着迷的主题!
定义和背景
1 主成份分析
通过线性组合一组变量,提取出能够解释数据方差最多的几个主成份。
2 因子分析
通过假设存在一些无法直接观测到的“因子”,解释观测数据的相关性。
3 背景
这些分析方法应用广泛,从社会科学到自然科学,都有探索变量关系的需求。
主成份分析的原理和步骤
1
原理
通过寻找能够最大化解释数据方差的线
步骤
2
性组合来减少变量数目。
1. 标准化变量
2. 计算协方差矩阵
3. 计算特征值和特征向量
4. 选择最大特征值对应的特征向量
3
总结与展望
5. 归一化主成份
主性组合减少变量数目,因子分析 通过解释观测数据的相关性来揭示潜在的因子。
联系
两种分析方法都可以帮助我们理解变量之间的关系, 从而为进一步研究和应用提供依据。
应用领域
社会科学
主成份和因子分析被广泛用 于心理学、教育学等社会科 学领域,帮助揭示变量之间 的潜在关系。
市场研究
通过主成份和因子分析,我 们可以了解消费者偏好、产 品特征等市场信息。
主成分分析与因子分析
主成分分析与因⼦分析主成分分析,主成份是原始变量的线性组合,在考虑所有主成份的情况下主成份和原始变量间是可以逆转的。
即“简化变量”,将变量以不同的系数合起来,得到好⼏个复合变量,然后在从中挑⼏个能表⽰整体的复合变量就是主成份,然后计算得分。
因⼦分析,公共因⼦和原始变量的关系是不可逆转的,但是可以通过回归得到。
是将变量拆开,分成公共因⼦和特殊因⼦。
过程是:因⼦载荷计算,因⼦旋转,因⼦得分。
主成份分析主成份分析需要知道两变量之间的相关性,⽣成协⽅差举证和相关新矩阵,对应的⽣成的新向量矩阵Y还有特征值λi,对应是第I个新向量对总体信息的贡献率为λi/(λ1+λ2+...+λn),对应的还有⼀个累积贡献率。
确定主成份的个数的⽅法有:特征值⼤于1(要求原始数据的每⼀个变量⾄少能贡献1各单位的变异)、陡坡检验法(陡坡图中开始平坦的点之前的点的个数)、累积解释变异⽐例法(即(λ1+...+λi)/(λ1+λ2+...+λn)>70%)。
同时也可以知道主成分分析对应的⼏个难点①是使⽤协⽅差矩阵还是相关系数矩阵②如何确定主成份的个数。
当数据中不同变量的度量单位不同并且数值相差较⼤就⽤标准化后的相关系数矩阵,当数值相差不⼤并且指标的权重不⼀样时,考虑⽤协⽅差矩阵。
对于个数的确定就是我们⼀些边界问题是否1左右的也可以囊括进主成份中,是否难以确定开始变平坦的是那个点,是否70%不够。
等⼏个问题。
主成分分析可以⽤两个过程步完成PROC FACTORS 、PROC PRINCOMP。
后者能处理的数据量⼤⼀些,效率⾼⼀些,,前者输出的内容丰富些,还可以做旋转因⼦。
以下是主成分分析过程;proc princomp data=sashelp.cars out=car_component;var mpg_city mpg_highway weight wheelbase length;run;输出结果:先是输出统计结果,再是输出相关性矩阵,这⾥princomp步默认使⽤的是相关系数矩阵,实际应⽤过程中,可以通过cov选项来指定使⽤的矩阵。
主成分分析与因子分析法ppt课件
事实上,以上问题在平时的研究中,也会经 常遇到。它所涉及的问题可以推广到对企业、 对学校、对区域进行分析、评价、排序和分 类等。
比如对n个样本进行综合评价,可选的描述样 本特征的指标很多,而这些指标往往存在一 定的相关性(既不完全独立,又不完全相 关),这就给研究带来很大不便。若选指标 太多,会增加分析问题的难度与复杂性,选 指标太少,有可能会漏掉对样本影响较大的 指标,影响结果的可靠性。
在各种线性组合中方差达到最大者。
满足上述约束得到的合成变量Y1, Y2, …, Yp分别称为 原始变量的第一主成分、第二主成分、…、第 p 主成分,
而且各成分方差在总方差中占的比重依次递减。在实际研究
工作中,仅挑选前几个方差较大的主成分,以达到简化系统
结构的目的。
24
24
三、主成分分析的计算步骤
25
21
(二) 主成分分析的基本思想
假如对某一问题的研究涉及 p 个指标,记为X1,X2, …,
Xp,由这 p 个随机变量构成的随机向量为X=(X1, X2, …,
Xp),设 X 的均值向量为,协方差矩阵为。设Y=(Y1, Y2 ,
… , Yp)为对 X 进行线性变换得到的合成随机向量,即
Y1 11
主成分分析法与因子分析法
1
主要内容
➢ 主成分分析法 ➢ 因子分析法 ➢ 附:主成分分析法与因子分析法的区别
2
主成分分析法
(Principal Components Analysis,PCA) ➢ 主成分分析法概述 ➢ 主成分分析的基本原理 ➢ 主成分分析的计算步骤
3
一、主成分分析概述
4
引子
假定你是一个公司的财务经理,掌握了公 司的所有数据,这包括众多的变量,比如 固定资产、流动资金、每一笔借贷的数额 和期限、各种税费、工资支出、原料消耗、 产值、利润、折旧、职工人数、职工的分 工和教育程度等等。
主成分分析与因子分析(第20章)
32
3.求出因子载荷阵
qij i aij
表 20-6 因子载荷阵
X1
X2
X3
X4
Z1
0.91753 0.90420 0.11527 0.21337
Z2
0.09935 -0.29662 0.94550 0.31893
利用所有指标: 各指标评价的结论可能不一致,使综合 评价困难; 工作量大。
6
找出几个综合指标(长度、围度、特体),这 些综合指标是原始指标的线性组合,既保留 了原始指标的信息,且互不相关。
各综合指标提供的“信息”量大小用其方差 来衡量。
衡量一个指标的好坏除了正确性与精确性外, 还必须能充分反映个体间的变异,一 项指标在个体间的变异越大,提供的信息 量越多。
a
2 2m
1
Z1与Z
无关,互相垂直:
2
a a 21 11 a a 22 12 a a 2m 1m 0
Var (Z2 )在所有Zi中为第2大。
……
理论上主成分个数最多为m个(指标个数)
实际工作中确定的主成分个数总是小于m个11Fra bibliotek相关 变异
-2
X2 2
1
-1
0
1
-1 -2
2
X1
12
Z2 2
X2 2
1
1
1
2
Z1
-2
-1
1
2
0
X1
-1
-1
-1
-2
-2
-2
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
X=
X11
X21
X n1
X12 X22
Xn2
X1m
X2m
Xnm
2021-2-8
xx
17
2. 求出X1 , X2 , … , Xm 的相关矩阵R
r11
R=Cov(X)
=
r21
rm1
r12 r1m
r22 r2m
rm2
rmm
2021-2-8
xx
18
(X X)(X X) n1
还必须能充分反映个体间的变异,一
项指标在个体间的变异越大,提供的信息
量越多。
2021-2-8
xx
7
二、数学模型及几何意义
Z1 a11X1 a12X2 a1mXm Z2 a21X1 a22X2 a2mXm
Zm am1X1 am2X2 amm Xm
2021-2-8
xx
8
Z=AX
样品号
1 2
观测指
X1
X2
X11
X12
X21
X22
标 Xm X1m X2m
n
2021-2-8
Xn1
Xn2
xx
Xnm
15
(一)主成分的求法 1. 对各原始指标值进行标准化
X'ij
Xij Xj Sj
j 1, 2 ,, m
为了方便,仍用Xij表示Xij’。
2021-2-8
xx
16
标准化后的数据矩阵
第20章
主成分分析 与因子分析
Principal Components Analysis & Factor Analysis
第二军医大学卫生统计学教研室 张罗漫
2021-2-8
xx
1
讲课内容:
第一节 主成分分析 第二节 因子分析
2021-2-8
xx
2
第一节 主成分分析
Principal Components Analysis
2021-2-8
xx
3
一、基本思想
➢数据的降维、数据的解释 将原来众多具有一定相关性的指标,组 合成一组新的相互无关的综合指标。 从中选取几个较少的综合指标尽可能多 的反映原来众多指标的信息。
➢这种既减少了指标的数目又抓住了主要矛 盾的做法有利于问题的分析和处理。
2021-2-8
xx
4
某地 208 名 14 岁男中学生 15 项形态指标测试结果
r21 ai1+ (r22- i) ai2+ + r2m aim=0
rm1 ai1+ rm2 ai2+ + (rmm- i) aim =0
i为矩阵R的第i个特征值, 共有m个非 负特征值,由大到小的顺序排列为:
1≥ 2≥ ≥ m≥0
i=Var(Zi)
2021-2-8
xx
21
4. 由以上方程组,求出相应于特征值 i 的 特征向量(eigenvector)
2021-2-8
xx
11
相关 变异
-2
2021-2-8
X2 2
1
-1
0
1
-1
-2
xx
2
X1
12
Z2 2
X2 2
1
1
1
2
Z1
-2
-1
1
2
0
X1
-1
-1
-1
-2
-2
-2
2021-2-8
xx
13
相关
变异
Z2 2
1
2
Z1
1
0
-1
-1
-2
2021-2-8
xx
-2
14
三、主成分的求法及性质
表 20-1 主成分分析的原始数据表
Z1
a11 a12 … a1m
X1
Z2 =
a21 a22 … a2m
X2
┇
┇
┇
…┇
┇
Zm
am1 am2 … amm
Xm
2021-2-8
xx
9
第一主成分
Z1 a11X1 a12X2 a1mXm a121 a122 a12m 1
Var (Z1 ) 在所有Zi中最大
2021-2-8
xx
(XX)(Y Y) lXY Pearson 相关系数 (X X)2 (Y Y)2 lXXlYY
r (X X) (Y Y) (X X)2 (Y Y)2
r 1 n1
2021-2-8
XX SX
YSYYxx
标准化后的协方差
19
3. 求出矩阵R的全部特征值(eigenvalue) i, 第i个主成分的组合系数ai1, ai2, , aim满
➢ 利用所有指标: 各指标评价的结论可能不一致,使综合
评价困难;
工作量大。
2021-2-8
xx
6
➢ 找出几个综合指标(长度、围度、特体),这 些综合指标是原始指标的线性组合,既保留 了原始指标的信息,且互不相关。
➢ 各综合指标提供的“信息”量大小用其方差 来衡量。
➢ 衡量一个指标的好坏除了正确性与精确性外,
1 140.0 76.0 36.3 32.0 23.0 16.1 61.1 38.7 32.4 23.1 71.3 41.8 31.6 22.3 20.5 xx
例
2 141.6 76.2 31.4 29.0 22..0 15.6 60.6 38.8 32.5 21.8 65.7 41.7 29.0 19.8 17.5
足方程组:
(r11- i) ai1+ r12 ai2+ + r1m aim =0 r21 ai1+ (r22- i) ai2+ + r2m aim=0
rm1 ai1+ rm2 ai2+ + (rmm- i) aim =0
2021-2-8
xx
20
(r11- i) ai1+ r12 ai2+ + r1m aim =0
号
…… …… …… …… …… …… …… …… …… …… …… …… …… …… …… ……
208
176.6
89.7
57.7
37.0
26.5
19.0
75.8
48.8
42.0
26.6
79.0
49.0
35.5
24.0
22.0
5
如何利用这些指标对每一儿童的生长发育 作出正确评价?
➢ 仅用单一指标: 结论片面; 没有充分利用原有数据信息。
指标、单位
身高 (X1) cm 坐高 (X2) cm 体重 (X3) kg 肩宽 (X4) cm 骨盆宽 (X5) cm 手长 (X6) cm 上肢长 (X7) cm 小腿加足高 (X8) cm 小腿长 (X9) cm 足长 (X10) cm 胸围 (X11) cm 大腿围 (X12) cm 小腿围 (X13) cm 上臂紧张围 (X14) cm 上臂2放02松1-2围-8 (X15) cm
10
第二主成分
Z2 a21X1 a22X2 a2m Xm
a
2 21
a
2 22
a
2 2m
1
Z1与Z
无关,互相垂直:
2
a a 21 11 a a 22 12 a a 2m 1m 0
Var (Z2 )在所有Zi中为第2大。
……
理论上主成分个数最多为m个(指标个数)
实际工作中确定的主成分个数总是小于m个
(ai1 , ai2 , , aim)’