贾俊平SPSS统计分析 第11章 主成分分析和因子分析
管理统计SPASS第11章主成分分析与因子分析资料
主成分的计算流程
步骤三:
按如下方法得到主成分 Yi :
Y1 b1T X ,Y2 b2T X ,,Yk bkT X
பைடு நூலகம்
式中,X ( X1, X 2 ,, X k )T 。
Yi (i 1,, k) 是相互正交的综合变量。将k个主成分放到一
起可得矩阵表达式: Y BT X
Y1 b11 b1k X1
简记为
Y AX
向量 Y 满足如下条件:
指标 Yi 之间不相关。
方差尽可能大,即对 n 个对象的分辨率尽可能强,信息损
失尽可能的少。
主成分分析小结:
(1)从相关的多个指标 X1, X 2 ,, X k 中,求出相互独立 的多个指标 Y1,Y2 ,,Yk 。
(2) Y (Y1,Y2 ,,Yk )T 的方差信息不损失,尽可能等同于 X ( X1, X 2 ,, X k )T 的方差。
Yk bk1 bkk X k
主成分的计算流程
主成分更为明晰的表达式:
Y1 b11X1 b21 X 2 bk1 X k Y2 b12 X1 b22 X 2 bk 2 X k
Yk bk1 X 1 bk 2 X 2 bkk X k
主成分的计算流程
结语:
X 与 Y 的转换关系为:
Y1 a11 a1k X 1
Yk ak1 akk X k
几何解释
在下图 X1 O X 2 的坐标中,散点大致为椭圆状。经过 线性变换可以得到新的坐标 Y1 O Y2 。Y1 在椭圆的长轴上, 反映出了散点在这个方向的最大方差。 Y2 在椭圆的短轴上,反 映出了散点在这个方向的方差。
X2
Y2
X1
Y1
主成分的计算流程
《统计分析与SPSS的应用》课后练习答案(第11章)
《统计分析与SPSS的应用(第五版)》(薛薇)课后练习答案第11章SPSS的因子分析1、简述因子分析的主要步骤是什么因子分析的主要步骤:一、前提条件:要求原有变量之间存在较强的相关关系。
二、因子提取。
三、使因子具有命名解释性:使提取出的因子实际含义清晰。
四、计算样本的因子得分。
2、对“基本建设投资分析.sav ”数据进行因子分析。
要求:1)利用主成分方法,以特征根大于1为原则提取因子变量,并从变量共同度角度评价因子分析的效果。
如果因子分析效果不理想,再重新指定因子个数并进行分析,对两次分析结果进行对比。
2)对比未旋转的因子载荷矩阵和利用方差极大法进行旋转的因子载荷矩阵,直观理解因子旋转对因子命名可解释性的作用。
“基本建设投资分析”因子分析步骤:分析降维因子分析导入全部变量到变量框中详细设置描述、抽取的设置如下: -相黄性舸阵[3□逆模型迥)显1F 性水平逞)□再生迟) □柠別式也)上厦映象追)V 邕M 。
和Bartiettm 形度橙验旋转、得分、选项的设置如下:./丘示圜子卷敘粗胖I 』[ai~J匚淙存n 欝童海© BarJet瞅■!圖丽药亟T 矗匸Q 脚dii*A3R 迟》0晰平即口甘描因亶除■£洞&式E 卜曲/ 牺削'■:诩|型J®J(3S1T ;■■ ■昌同子分疔信辻统计Statistics(1)表一是原有变量的相关系数矩阵。
由表可知,一些变量的相关系数都较高,呈较强的线由表二可知,巴特利特球度检验统计量的观测值为,相应的概率 性水平为,由于概率P-值小于显著性水平a,则应拒绝原假设,认为相关系数矩阵与单位P-值接近0.如果显著阵有显著差异,原有变量适合做因子分析。
同时, 量可以进行因子分析。
KMO 直为,根据KMC 度量标准可知原有变由表三可知,利用外资、自筹资金、其他投资等变量的绝大部分信息(大于 因子解释,这些变量的信息丢失较少。
但国家预算内资金这个变量的信息丢失较为严重(近80%。
spss课件主成分分析与因子分析
由此可得 Yi 与X j 的相关系数为
Y , X
i j
Cov(Yi , X j ) Var (Yi ) Var ( X j )
i eij i jj
i jj
eij .
注意:此公式的记忆,应根据实际含义,即第i个主成分的标准差除以第j个原变量 的标准差,然后乘以第i个特征向量的第j个分量
Yi (e ) X e
* * T i *
* i1
X 1 1
11
* i
e
p
* i2
X 2 2
22
p
e
* ip
X p p
pp
, i 1, 2, , p.
(4.6)
并且
Var (Y
i 1
p
) i* Var ( X i* ) p,
用为数较少的互不相关的新变量来反映原变量所提供 的绝大部分信息
引言
Y1 X 1 cos X 2 sin Y2 X 1 sin X 2 cos
总体主成分
X 设 1 , X 2 , , X p为某实际问题所涉及的 p 个随机变量。 X ( X 1 , X 2 , , X p )T 记 ,其协方差矩阵为
( ij ) p p E ( X E ( X ))( X E ( X ))T
它是一个 p 阶负定矩阵。设 l (l , l ,, l ) 为 p 个常数向量,考虑如下线性组合:
i i1 i2 ip
T
(i 1, 2,, p)
Y1 l1T X l11 X 1 l12 X 2 l1 p X p , T Y2 l2 X l21 X 1 l22 X 2 l2 p X p , Y l T X l X l X l X . p1 1 p2 2 pp p p p
实验:SPSS主成分分析和因子分析
实验:SPSS主成分分析和因子分析实验:SPSS主成分分析和因子分析实验目的:1、掌握如何确定主成分的个数;2、熟练解释主成分分析的结果:载荷矩阵、共同度、方差贡献率等;3、掌握应用主成分分析进行数据降维和综合评价的方法。
4、了解因子分析法的应用条件5、掌握因子分析法的应用;6、掌握因子分析法输出结果的解释。
实验内容:1、(主成分分析)P253见实验数据8-1 PCA20.sav某公司有20个工厂,现在要对每个工厂作经济效益分析。
从所取得的生产成果和所消耗的人力、物力、财力的比率等指标中,选取5个指标(变量)进行分析。
X1——固定资产的产值率;X2——净产值的劳动生产率;X3——百元产值的流动资金占用率;X4——百元产值的利润率;X5——百元资金的利润率。
现在对这20个工厂同时按照这5项指标收集数据,然后找出1个综合指标对它们的经济效益进行排序,找出经济效益较高的工厂。
应用主成分分析法,要求主成分只要能够反映出全部信息的85%就可以了。
2、(主成分分析)实验数据8-2 给出了中国历年国民经济主要指标统计(2005-2012)。
试用主成分分析法对这些指标提取主成分并写出提取的主成分与这些指标之间的表达式。
3、(因子分析)P281见实验数据8-3 cereals.sav 某市场调查项目需要了解消费者是否偏爱某个谷物品牌。
现有117个受访者对12个销量比较好的谷物产品的25个属性进行评分。
现在用因子分析法对消费者的偏好习惯进行分析。
哪些品牌的谷物产品易受消费者青睐?消费者喜欢哪些属性?这些属性之间有什么关系?4、(因子分析)见实验数据8-4给出了中国历年国民经济主要指标统计(2004-2012)。
试用因子分析法对这些指标提取公因子并写出提取的公因子与这些指标之间的表达式。
实验要求:题目1写一份实验报告;题目3写一份实验报告。
实验数据:见实验八数据文件夹实验步骤、结论:学生填写实验成绩:教师填写。
主成分分析、因子分析实验报告--SPSS
主成分分析、因子分析实验报告--SPSS主成分分析、因子分析实验报告SPSS一、实验目的主成分分析(Principal Component Analysis,PCA)和因子分析(Factor Analysis,FA)是多元统计分析中常用的两种方法,旨在简化数据结构、提取主要信息和解释变量之间的关系。
本次实验的目的是通过使用 SPSS 软件对给定的数据集进行主成分分析和因子分析,深入理解这两种方法的原理和应用,并比较它们的结果和差异。
二、实验原理(一)主成分分析主成分分析是一种通过线性变换将多个相关变量转换为一组较少的不相关综合变量(即主成分)的方法。
这些主成分是原始变量的线性组合,且按照方差递减的顺序排列。
主成分分析的主要目标是在保留尽可能多的数据信息的前提下,减少变量的数量,从而简化数据分析和解释。
(二)因子分析因子分析则是一种探索潜在结构的方法,它假设观测变量是由少数几个不可观测的公共因子和特殊因子线性组合而成。
公共因子解释了变量之间的相关性,而特殊因子则代表了每个变量特有的部分。
因子分析的目的是找出这些公共因子,并估计它们对观测变量的影响程度。
三、实验数据本次实验使用了一份包含多个变量的数据集,这些变量涵盖了不同的领域和特征。
数据集中的变量包括具体变量 1、具体变量 2、具体变量 3等,共X个观测样本。
四、实验步骤(一)主成分分析1、打开 SPSS 软件,导入数据集。
2、选择“分析”>“降维”>“主成分分析”。
3、将需要分析的变量选入“变量”框。
4、在“抽取”选项中,选择主成分的提取方法,如基于特征值大于1 或指定提取的主成分个数。
5、点击“确定”,运行主成分分析。
(二)因子分析1、同样在 SPSS 中,选择“分析”>“降维”>“因子分析”。
2、选入变量。
3、在“描述”选项中,选择相关统计量,如 KMO 检验和巴特利特球形检验。
4、在“抽取”选项中,选择因子提取方法,如主成分法或主轴因子法。
主成分分析和因子分析的区别
主成分分析和因子分析的区别一、二者在SPSS中的实现(一)、因子分析在SPSS中的实现进行因子分析主要步骤如下:1. 指标数据标准化(SPSS软件自动执行);2. 指标之间的相关性判定;3. 确定因子个数;4. 综合得分表达式;5. 各因子Fi命名;例子:对沿海10个省市经济综合指标进行因子分析(一)指标选取原则本文所选取的数据来自《中国统计年鉴2003》中2002年的统计数据,在沿海10省市经济状况主要指标体系中选取了10个指标:X1——GDP X2——人均GDPX3——农业增加值X4——工业增加值X5——第三产业增加值X6——固定资产投资X7——基本建设投资X8——国内生产总值占全国比重(%)X9——海关出口总额X10——地方财政收入图1:沿海10个省市经济数据(二)因子分析在SPSS中的具体操作步骤运用SPSS统计分析软件Factor过程[2]对沿海10个省市经济综合指标进行因子分析。
具体操作步骤如下:1. Analyzeà Data Reductionà Factor Analysis,弹出Factor Analysis对话框2. 把X1~X10选入Variables框3. Descriptives: Correlation Matrix框组中选中Coefficients等选项,然后点击Continue,返回Factor Analysis对话框4. 点击“OK”图2:Factor Analyze对话框与Descriptives子对话框SPSS在调用Factor Analyze过程进行分析时,SPSS会自动对原始数据进行标准化处理,所以在得到计算结果后指的变量都是指经过标准化处理后的变量,但SPSS不会直接给出标准化后的数据,如需要得到标准化数据,则需调用Descriptives过程进行计算。
我们可以通过Analyze-Descriptive Statistics- Descriptives对话框来实现:弹出Descriptives对话框后,把X1~X10选入Variables框,在Save standardized values as variables前的方框打上钩,点击“OK”,经标准化的数据会自动填入数据窗口中,并以Z开头命名。
11 主成分分析与因子分析 管理统计学——基于SPSS软件应用 [电子教案]
因 9 0.8 91.47 62.36 4822 66.23 24 14.09 80.96 21.49 956 14.72 素 10 5.94 90.31 40.85 1696 21.24 25 32.31 87.6 7.7 865 12.59
11.1.2 因子分析的SPSS应用
• 添加分析变量 • 描述性统计设置 • 因子提取设置 • 因子旋转设置 • 因子得分设置 • 缺失值及因子负载矩阵设置
生
Id X1 X2 X3 X4 X5 Id X1 X2 X3 X4 X5
育 1 0.94 89.89 64.51 3577 73.08 16 9.04 88.76 39.71 880 15.52
• 因子得分的计算
– 在因子分析模型中,不考虑特殊因子的影响, 当m=p且A可逆时,该样本在因子F上的得分 F=A-1X
– 实际应用要求mp,只能对因子得分进行估计
因子分析的步骤
• 计算所有变量的相关系数矩阵 • 提取因子,确定因子的个数和求因子解的
方法 • 进行因子旋转,使因子解的实际意义更容
易解释 • 计算因子得分
管理统计学
2010年
11 主成分分析与因子分析
11.1 因子分析
11.1.1 因子分析的理论与方法 11.1.2 因子分析的SPSS应用
11.2 主成分分析
11.2.1 主成分分析的理论与方法 11.2.2 主成分分析的SPSS应用
11.1 因子分析
• 因子/基础变量:既能包含原来众多变量代 表的信息,又能解释这些变量相互依存关 系的变量
• 所有公共因子的总贡献为:
主成分分析和因子分析
SPSS操作:分析——描述统计——描述
第4题
朗莱曾分析美国联邦政府雇员人数(Y)与国民总产出 隐含平减指数(X1),国民总产出(X2),失业人数( X3),武装力量人数(X4),14岁及以上非慈善机构人 口数(X5),时间变量(X6)等的关系,数据如下。他 利用了美国47—62年数据(如下)做多元线性回归。现 请你重新做下朗莱的工作,判断有无多重共线性,如有 ,试用主成分法回归分析消除多重共线性。
计算各企业经济效益的综合得分
由综合得分可排出企业经济效益的名次。
九章第2题
在企业经济效益的评价中,涉及的指标往往很多.为了简化系 统结构,抓住经济效益评价中的主要问题,可利用主成分分析法进 行综合评价。在对我国部分省,市,自治区独立核算的工业企业的 经济效益评价中,涉及到9项指标,用主成分分析进行综合评价。
第一主成分的方差为3.686,第二主成分的 方差为1.237 根据成分矩阵得到两个主成分的线性方程:
计算两个主成分对应的值:
两个主成分对应值如下表:
做标准化的因变量与主成分的线性回归:
原始变量均值和标准差如下表:
第5题
经济工作者希望通过国内总产值x1,存储量x2, 消费总量x3,去预测进口总额y,为此收集了某地区 共计十一年的有关数据,利用主成分估计建立回归 方程。
第一主成分得分
2.858915 3.756416 -0.54939 -1.73507 -3.08695 0.320264
运用spss做因子分析与主成分分析(1)讲解共31页
运用spss做因子分析与是在我们的前面,而不在 我们的 后面。
•
7、心急吃不了热汤圆。
•
8、你可以很有个性,但某些时候请收 敛。
•
9、只为成功找方法,不为失败找借口 (蹩脚 的工人 总是说 工具不 好)。
•
10、只要下定决心克服恐惧,便几乎 能克服 任何恐 惧。因 为,请 记住, 除了在 脑海中 ,恐惧 无处藏 身。-- 戴尔. 卡耐基 。
谢谢!
36、自己的鞋子,自己知道紧在哪里。——西班牙
37、我们唯一不会改正的缺点是软弱。——拉罗什福科
xiexie! 38、我这个人走得很慢,但是我从不后退。——亚伯拉罕·林肯
39、勿问成功的秘诀为何,且尽全力做你应该做的事吧。——美华纳
40、学而不思则罔,思而不学则殆。——孔子
SPSS主成分与因子分析
SPSS主成分与因⼦分析实验⽬的 学会使⽤SPSS的简单操作,掌握主成分与因⼦分析。
实验要求 使⽤SPSS。
实验内容实验步骤 (1)主成分分析,分析⽰例——对30个省市⾃治区经济基本情况的⼋项指标进⾏分析,详情见factorl.sav⽂件。
SPSS操作,点击【分析】→【降维】→【因⼦】,在打开的【因⼦分析】对话框中,把x1~x8都选⼊【变量】中,点击【描述】,勾选【系数】,点击【继续】,单击【确定】。
SPSS在调⽤因⼦分析的过程中,⾸先会对原始变量进⾏标准化,因此以后的输出结果中通常情况下都是指标准化后的变量。
在结果输出中会涉及⼀些因⼦分析的内容,因此这⾥只给出与主成分分析有关的部分如下:相关性矩阵GDP 居民消费⽔平固定资产投资职⼯平均⼯资货物周转量居民消费价格指数商品价格指数⼯业总产值相关性GDP 1.000.267.951.187.617-.273-.264.874居民消费⽔平.267 1.000.426.716-.151-.235-.593.363固定资产投资.951.426 1.000.396.431-.280-.359.792职⼯平均⼯资.187.716.396 1.000-.357-.145-.543.099货物周转量.617-.151.431-.357 1.000-.253.022.659居民消费价格指数-.273-.235-.280-.145-.253 1.000.763-.125商品价格指数-.264-.593-.359-.543.022.763 1.000-.192⼯业总产值.874.363.792.099.659-.125-.192 1.000 上表为8个原始变量之间的相关系数矩阵,可见许多变量之间直接的相关性⽐较强,的确存在信息上的重叠。
总⽅差解释成分初始特征值提取载荷平⽅和总计⽅差百分⽐累积 %总计⽅差百分⽐累积 %1 3.75446.92446.924 3.75446.92446.9242 2.20327.53274.456 2.20327.53274.4563 1.20815.09689.551 1.20815.09689.5514.4035.04294.5935.214 2.67397.2666.138 1.72298.9887.066.82999.8178.015.183100.000提取⽅法:主成分分析法。
应用SPSS进行主成分分析和因子分析PPT共33页
END
16、业余生活要有意义,不要越轨。——华盛顿 17、一个人即使已登上顶峰,也仍要自强不息。——罗素·贝克 18、最大的挑战和突破在于用人,而用人最大的突破在于信任人。——马云 19、自己活着,就是为了使别人过得更美好。——雷锋 20、要掌握书,莫被书掌握;要为生而读,莫为读而生。——布尔沃
应用SPSS进行主成分分析和因子分析
11、获得的成功越大,就越令人高兴 。野心 是使人 勤奋的 原因, 节制使 人枯萎 。 12、不问收获,只问耕耘。如同种树 ,先有 根茎, 再有枝 叶,尔 后花实 ,好好 劳动, 不要想 太多, 那样只 会使人 胆孝懒 惰,因 为不实 践,甚 至不接 触社会 ,难道 你是野 人。(名 言ቤተ መጻሕፍቲ ባይዱ) 13、不怕,不悔(虽然只有四个字,但 常看常 新。 14、我在心里默默地为每一个人祝福 。我爱 自己, 我用清 洁与节 制来珍 惜我的 身体, 我用智 慧和知 识充实 我的头 脑。 15、这世上的一切都借希望而完成。 农夫不 会播下 一粒玉 米,如 果他不 曾希望 它长成 种籽; 单身汉 不会娶 妻,如 果他不 曾希望 有小孩 ;商人 或手艺 人不会 工作, 如果他 不曾希 望因此 而有收 益。-- 马钉路 德。
SPSS20与社会调查方法实务教程-SPSS20因子分析与主成分分析
11.3 SPSS 20的因子分析
表11.3 “A产品问卷调查”的方差贡献率分析表
主因子
特征值
方差贡献率 (%)
累积方差贡献 率(%)
F1
3.826
25.508
25.508
F2
1.668
SPSS 20的因子分析输出的第一张表为“KMO和 Bartlett的检验”,一般可称为“KMO和Barlett检验 分析表”,表11.1为经过整理之后的表格。
11.3 SPSS 20的因子分析
表11.1 “A产品问卷调查”的KMO和Barlett检验分析表
KMO检验
0.675
近似的卡方检验值
421.306
第11章 因子分析与主成分分析
Ø 11.1 主成分分析
1、主成分分析的基本概念
主成分分析(PCA)是根据各指标数值之间的相互 关系,通过正交旋转变换,形成的一组由原变量 的线性组合构成的互不相关新变量,所进行降维、 综合评价和消除多重共线性等分析。
11.1 主成分分析
设原有变量的数目为n,主成分分析法就是寻找 由m个线性组合组成的新的变量,即m个主成分 ,p表示主成分,新的变量的项数m为1到n ,即 有1≤ m ≤ n 。主成分的数学表达式为:
(1)逆指标的正向化处理 (2)指标之间的相关性判定
一般采用KMO检验和Barlett检验。 (3)确定主因子个数 (4)确定主因子的提取方法 (5)因子旋转 (6)因子命名 (7)因子得分
11.2 因子分析
3、因子分析与主成分分析的区别:
o 因子分析是对主成分的拓展,其方法和内容更 加丰富;从具体的方法特征来看,也可说主成 分又是因子分析的一个特例。可以将主成分分 析和因子分析的不同归结以下几个方面。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
根据特特征根的大小
11 - 26
统计学
STATISTICS (第三版)
2008年8月
11 - 5
统计学
STATISTICS (第三版)
因子分析得到的是什么?
因子分析方法在部分领域应用的一些例子 心理学:心理学家瑟斯登对56 项测验的得分进行因子分 析,得出了7中主要智利因子:词语理解能力,语言流畅 能力、计数能力、空间能力、记忆力、知觉速度和推理 能力 教育学:某师范大学在对以幼儿园3 ~ 6 岁幼儿为对象, 通过80名幼儿教师对480名幼儿好奇心行为特征描述的开 放式问卷调查,编制出60个项目的初始问卷,对500名幼 儿的初测结果进行探索性因子分析后,形成了 33 个项目 的正式问卷,对1000名幼儿的评价结果进行验证性因子 分析,结果表明:教师评价的 3 ~ 6 岁幼儿好奇心结构包 括敏感、对未知事物的关注、好问、喜欢摆弄、探索持 久和好奇体验6个因子
常被用来寻找判断事物或现象的综合指标,并对综 合指标所包含的信息进行适当的解释
11 - 11
2008年8月
统计学
STATISTICS (第三版)
主成分分析的基本思想
(以两个变量为例)
对这两个相关变量所携带的信息(在统计上信息往往是 指数据的变异)进行浓缩处理 假定只有两个变量 x1 和 x2 ,从散点图可见两个变量存 在相关关系,这意味着两个变量提供的信息有重叠 如果把两个变量用 一个变量来表示, 同时这一个新的变 量又尽可能包含原 来的两个变量的信 息,这就是降维的 过程
2008年8月
11 - 6
统计学
STATISTICS (第三版)
因子分析得到的是什么?
医学:一位研究者对山东某县2000~2002年3年 的全死因调查资料中不同地区各恶性肿瘤标化死 亡率进行因子分析后发现,该县居民恶性肿瘤的 发病和死亡具有明显的地区分布。在地区分布中, 各种恶性肿瘤的死亡具有一定程度的聚集性。经 因子分析得到的 4 个主因子可以解释10 种恶性肿 瘤死亡率的 74.54 %; 10 种恶性肿瘤中,被解释 的比例最小也在62%以上;而胃癌、白血病、膀 胱癌、乳腺癌、结肠癌死亡率被解释的比例均在 77%以上,表明这10种恶性肿瘤之间存在中等偏 强的内在联系和地区分布特点
11 - 14
2008年8月
11.1 主成分分析 11.1.2 主成分分析的数学模型
统计学
STATISTICS (第三版)
主成分分析的数学模型
数学上的处理是将原始的p个变量作线性组合,作为新的 变量 ,x p ,新的变量(即主成分) 设p个原始变量为 x1,x 2, ,y p ,主成分和原始变量之间的关系表示为 为 y1,y 2,
11 - 17 2008年8月
统计学
STATISTICS (第三版)
主成分的选择
究竟选择几个主成分才合适呢? 一般要求所选主成分的方差总和占全部方差的 80%以上就可以了。当然,这只是一个大体标准 ,具体选择几个要看实际情况 如果原来的变量之间的相关程度高,降维的效果 就会好一些,所选的主成分就会少一些,如果原 来的变量之间本身就不怎么相关,降维的效果自 然就不好 不相关的变量就只能自己代表自己了
2008年8月
11 - 13
统计学
STATISTICS (第三版)
主成分分析的基本思想
(以两个变量为例)
多维变量的情形类似,只不过是一个高维椭球,无法 直观地观察 每个变量都有一个坐标轴,所以有几个变量就有几主 轴。首先把椭球的各个主轴都找出来,再用代表大多 数数据信息的最长的几个轴作为新变量,这样,降维 过程也就完成了 找出的这些新变量 是原来变量的线性 组合,叫做主成分
主成分分析和因子分析的基本原理 主成分分析和因子分析的异同 主成分分析和因子分析的数学模型 用SPSS进行主成分分析和因子分析 用主成分分析和因子分析对实际问题进行 综合评价
11 - 4
2008年8月
统计学
STATISTICS (第三版)
主ห้องสมุดไป่ตู้分分析和因子分析
(Principal Component Analysis & Factor Analysis)
11 - 7 2008年8月
统计学
STATISTICS (第三版)
因子分析得到的是什么?
地质学:海南岛的石绿铁矿及外围地区有透辉石透闪岩石和阳 起石两种岩石。地质工作者对两种岩石标本的11种化验数据进 行了因子分析,分别得到5种和4种主要因子。结果表明,透辉 石透闪岩石与阳起石有明显区别,前者的元素组合属碳酸盐沉 积型,后者属岩浆分异型。透辉石透闪岩石中铁的沉积与泥质 成分有关,属于正常沉积。由此推断石绿铁矿的主要成矿为沉 积作用,并据此提出了找矿标志和找矿方向 上市公司评价:某研究者选择 35 家能源类上市公司,根据 2007 年的 12 项经营指标数据,采用因子分析法分别按盈利能 力、资产管理能力、偿债能力及经营业绩综合评分等方面对35 家上市公司进行了排名。其中:盈利能力排在前5位的是:神 火股份、海油工程、兰花科创、潞安环能和中国石油;经营业 绩综合得分排在前5位的是:神火股份、潞安环能、兰花科创、 海油工程和开滦股份
11 - 16
2008年8月
统计学
STATISTICS (第三版)
主成分的选择
选择几个主成分?选择标准是什么? 被选的主成分所代表的主轴的长度之和占了主轴 总程度之和的大部分 在统计上,主成分所代表的原始变量的信息用其 方差来表示。因此,所选择的第一个主成分是所 有主成分中的方差最大者,即Var(yi)最大 如果第一个主成分不足以代表原来的个变量,在 考虑选择第二个主成分,依次类推 这些主成分互不相关,且方差递减
(principal component analysis)
主成分的概念由Karl Pearson在1901年提出 考察多个变量间相关性一种多元统计方法 研 究 如 何 通 过 少 数 几 个 主 成 分 (principal component)来解释多个变量间的内部结构。即从 原始变量中导出少数几个主分量,使它们尽可能 多地保留原始变量的信息,且彼此间互不相关 主成分分析的目的:数据的压缩;数据的解释
i 1
比如,第一个主成分的特征根为3.963,占总特征根的的 比例(方差贡献率)为66.052%,这表示第一个主成分解释 了原始6个变量66.052%的信息,可见第一个主成分对原 来的6个变量解释的已经很充分了
2008年8月
11 - 25
统计学
STATISTICS (第三版)
根据什么选择主成分?
2008年8月
11 - 8
第 11 章 主成分分析和因子分析 11.1 主成分分析
11.1.1 主成分分析的基本原理 11.1.2 主成分分析的数学模型 11.1.3 主成分分析的步骤
11.1 主成分分析 11.1.1 主成分分析的基本原理
统计学
STATISTICS (第三版)
什么是主成分分析?
11 - 18 2008年8月
11.1 主成分分析 11.1.3 主成分分析的步骤
统计学
STATISTICS (第三版)
主成分分析的步骤
对原来的p个指标进行标准化,以消除变量 在水平和量纲上的影响 根据标准化后的数据矩阵求出相关系数矩 阵 求出协方差矩阵的特征根和特征向量 确定主成分,并对各主成分所包含的信息 给予适当的解释
aij 为第 i 个主成分 yi 和原 y1 a11 x1 a12 x 2 a1 p x p 来的第 j 个变量 xj 之间的 线性相关系数,称为载 y 2 a 21 x1 a 22 x 2 a 2 p x p 荷(loading)。比如,a11 表示第1主成分和原来的 第1个变量之间的相关系 y p a p1 x1 a p 2 x 2 a pp x p 数, a21 表示第 2 主成分 和原来的第1个变量之间 的相关系数 主成分分析的数学模型
11 - 20
2008年8月
统计学
STATISTICS (第三版)
主成分分析
(实例分析)
【例】根据我国 31 个省市自治区 2006 年的 6 项主 要经济指标数据,进行主成分分析,找出主成 分并进行适当的解释
31个地区的6项经济指标
11 - 21 2008年8月
统计学
STATISTICS (第三版)
用SPSS进行主成分分析
11 - 22 2008年8月
统计学
STATISTICS (第三版)
SPSS的输出结果
各变量之间的相关系数矩阵
变量之间的存在较强的相关关系,适合作主成分分析
11 - 23
2008年8月
统计学
STATISTICS (第三版)
SPSS的输出结果
(选择主成分)
各主成分所解释的原始变量的方差
2008年8月
11 - 12
统计学
STATISTICS (第三版)
主成分分析的基本思想
(以两个变量为例)
椭圆中有一个长轴和一个短轴,称为主轴。在长轴方向,数据 的变化明显较大,而短轴方向变化则较小 如果沿着长轴方向设定一个新的坐标系,则新产生的两个变量 和原始变量间存在一定的数学换算关系,同时这两个新变量之 间彼此不相关,而且长轴变量携带了大部分的数据变化信息,而 短轴变量只携带了一小 部分变化的信息(变异) 此时,只需要用长轴方 向的变量就可以代表原 来两个变量的信息。这 样也就把原来的两个变 量降维成了一个变量。 长短轴相差越大,降维 也就越合理
用SPSS进行主成分分析
第1步 选择【Analyze】下拉菜单,并选择【Data ReductionFactor】,进入主对话框 第2步 在主对话框中将所有原始变量选入【Variables】 第3步 点击【Descriptives】,在【correlation Matrix】下选择 【Coefficirnts】,点击【Continue】回到主对话框 第4步 点击【Extraction】,在【Display】下选择【Scree Plot】,点击【Continue】回到主对话框 第5步 点击【Rotation】,在【Display】下选择【Loading Plot】,点击【Continue】回到主对话框 点击【OK】