主成分分析 实例

合集下载

主成分分析-实例

主成分分析-实例

§8 实例 实例1计算得1x =71.25,2x =67.5分析1:基于协差阵∑ 求主成分。

369.6117.9117.9214.3S ⎛⎫= ⎪⎝⎭特征根与特征向量(S无偏,用SPSS )Factor 1 Factor 2 11x x - 0.880 -0.47422x x -0.474 0.880 特征值 433.12 150.81 贡献率0.7417 0.2583注:样本协差阵为无偏估计11(11)1n n n S X I X n n''=--, 所以,第一、二主成分的表达式为1122120.88(71.25)0.47(67.5)0.47(71.25)0.88(67.5)y x x y x x =-+-⎧⎨=--+-⎩ 第一主成分是英语与数学的加权和(反映了综合成绩),且英语的权数要大于数学的权数。

1y 越大,综合成绩越好。

(综合成分)第二主成分的两个系数异号(反映了两科成绩的均衡性)。

不妨将英语称为文科,数学称为理科。

2y 越大,说明偏科(文、理成绩不均衡),2y 越小,越接近于零,说明不偏科(文、理成绩均衡)。

(结构成分)问题:英语的权数为何大?如何解释? 分析2:基于相关阵R 求主成分。

因为1x =71.25,2x =67.5所以相关阵11R ⎛=⎪⎪⎭解得R 的特征根为:1λ=1.419,2λ=0.581,对应的单位特征向量分别为:Factor 1 Factor 2 111x x s - 0.707 0.707 222x x s - 0.707 -0.707 特征根 1.419 0.581 贡献率0.7090.291所以,第一、二主成分的表达式为12112271.2567.50.7070.70717.9813.6971.2567.50.7070.70717.9813.69x x y x x y --⎧=+=+⎪⎪⎨--⎪=-=-⎪⎩1122120.039(71.25)0.052(67.5)0.039(71.25)0.052(67.5)y x x y x x =-+-⎧⎨=---⎩ 1122120.0390.052 6.2730.0390.0520.671y x x y x x =+-⎧⎨=-+⎩ *2*11707.0707.0x x y += *2*12707.0707.0x x y -=基于相关阵的更说明了:第一主成分是英语与数学的加权总分。

主成分分析之PCA

主成分分析之PCA

95
M
90
85
80
75
70
65
60 64 66 68 70 72 74 76 78 80 82 84
❖ 先假定数据只有二维,即只有两个 变量,它们由横坐标和纵坐标所代表; 因此每个观测值都有相应于这两个坐 标轴的两个坐标值;
❖ 如果这些数据形成一个椭圆形状的 点阵(这在变量的二维正态的假定下 是可能的).
F简化了系统结构,抓住了主要矛盾。
整理课件
35
稍事休息
§3.4 PCA的性质
一、两个线性代数的结论
1、若A是p阶实对称阵,则一定可以找到正交阵U,使
1 0 0
U1AU
0
2
0
0
0
p
pp
其中 i,i1.2. p是A的特征根。
2、若上述矩阵的特征根所对应的单位特征向量 为 u1,,up
例 设 x1,x2,x3的协方差矩阵为
1 2 0
2 5 0 0 0 2
解得特征根为
,,
15.8,32 2.00,30.17
0.383
U1
0 .924
0.000
0
U
2
0
1
0 .924
U
3
0
.383
0 .000
第 一 个 主 成 分 的 贡 献 率 为 5.83/ ( 5.83+2.00+0.17 ) =72.875%,尽管第一个主成分的贡献率并不小,但应该取 两个主成分。97.88%
❖ 注意,和二维情况类似,高维椭球的 主轴也是互相垂直的。这些互相正交 的新变量是原先变量的线性组合,叫 做主成分(principal component)。

主成分分析例题5.22

主成分分析例题5.22

2014-6-16
中国人民大学六西格玛质量管理研究中心
13
目录 上页 下页 返回 结束
由上面的讨论可知,无论是从原始变量协方差矩阵出发求解主成分,还 是从相关矩阵出发求解主成分,均没有涉及到总体分布的问题。也就是说, 与很多多元统计方法不同,主成分分析不要求数据来自于正态总体。实际上, 主成分分析就是对矩阵结构的分析,其中主要用到的技术是矩阵运算的技术 及矩阵对角化和矩阵的谱分解技术。我们知道,对多元随机变量而言,其协 方差矩阵或是其相关矩阵均是非负定的,这样,我们就可以按照求解主成分 的步骤求出其特征值、标准正交特征向量,进而求出主成分,达到缩减数据 维数的目的。同时,由主成分分析的几何意义可以看到,对来自多元正态总 体的数据,我们得到了合理的几何解释,即主成分就是按数据离散程度最大 的方向进行坐标轴旋转。
2014-6-16
中国人民大学六西格玛质量管理研究中心
11
目录 上页 下页 返回 结束
但是,对原始数据进行标准化处理后倾向于各个指标的作 用在主成分的构成中相等。由上面的例子我们看到,对于取值 范围相差不大或是度量相同的指标进行标准化处理后,其主成 分分析的结果仍与由协方差阵出发求得的结果有较大区别。其 原因是由于对数据进行标准化的过程实际上也就是抹杀原始变 量离散程度差异的过程,标准化后的各变量方差相等均为1, 而实际上方差也是对数据信息的重要概括形式,也就是说,对 原始数据进行标准化后抹杀了一部分重要信息,因此才使得标 准化后各变量在对主成分构成中的作用趋于相等。由此看来, 对同度量或是取值范围在同量级的数据,还是直接从协方差矩 阵求解主成分为宜。
表5-2
2014-6-16
中国人民大学六西格玛质量管理研究中心
4
目录 上页 下页 返回 结束

主成分分析案例聚类分析案例

主成分分析案例聚类分析案例

主成分分析案例/聚类分析案例我国各地区行业结构分析摘要:近年来,我国各行各业得到了高速发展,许多新兴行业也伴随着人们的多样化需求而日益成熟。

文章利用主成分分析、聚类分析、典型相关分析和判别分析方法对我国各地区行业工资进行分析,探讨我国各区域之间行业结构的差异,从而为各地政府根据地区间的行业结构差异制定更加合理的引导性政策提供更加有效的决策依据。

关键词:行业结构主成分分析聚类分析典型相关分析判别分析1.相关经济指标及数据选取1.1相关经济指标本文以2013年我国各地区城镇私营单位就业人员平均工资为标准,选取了农、林、牧、渔业,制造业,电力、热力、燃气及水生产和供应业,建筑业,批发和零售业,交通运输、仓储和邮政业,住宿和餐饮业,信息传输、软件和信息技术服务业,金融业,房地产业,租赁和商务服务业,科学研究和技术服务业,水利、环境和公共设施管理业、居民服务、修理和其他服务行业,教育,卫生和社会工作,文化、体育和娱乐业作为标准,对我国各地区的行业结构进行分析。

1.2数据选取本文数据来自2014年中国统计年鉴,由于西藏人烟稀少,缺少数据,因此选取了30个省的部分数据。

表1-1 分地区按行业分城镇私营单位就业人员平均工资(2013年)地区农、林、制造业电力、热力、建筑业批发和零售交通运输、住宿和餐饮信息传输、北京32531 42809 41939 40942 40742 34213 34517 73626 天津41255 42765 34968 39704 40093 48095 38877 46580 河北24198 28983 27760 28852 25345 30108 24783 27827 山西21064 27348 27199 29185 25978 22411 20577 21177 内蒙古31246 33368 41316 35242 29201 40449 29899 33239 辽宁24194 29354 25658 33830 28330 31019 26197 30848 吉林18281 22915 19804 24389 25170 25836 22530 29716 黑龙江18992 24899 24063 27687 23335 22793 22768 26667 上海22722 30443 31231 32413 27420 36601 28119 58420 江苏32507 36188 36986 37051 34213 37625 32144 48032 浙江27932 33186 28185 39113 33766 38760 30096 46003安徽21159 31943 26903 35024 27437 38871 27810 21489 福建30234 35460 29918 39207 33192 40793 28951 46072 江西25854 26924 31275 32085 25652 29388 22678 30168 山东30394 34705 39881 35392 31817 35833 30311 37675 河南19869 23142 23711 27104 23086 24919 21798 22215 湖北17742 25696 26030 27611 23028 23379 23694 33526 湖南23363 27287 32001 29932 23271 25321 23264 35898 广东25709 35646 21670 37488 40866 41074 29401 61935 广西22762 29315 27879 30752 25026 28395 24300 26484 海南16593 27836 20408 33335 29126 37389 27086 29651 重庆27961 35398 34641 36539 32919 34703 27616 38615 四川25127 29652 30099 30850 29149 29386 26066 28671 贵州18034 27183 43575 26704 22260 23913 21155 35040 云南21580 24646 26405 27603 28732 28718 25552 25011 陕西22480 25582 25193 26140 24392 25359 23418 33454 甘肃19319 24212 24873 25256 26544 25435 18656 25994 青海18363 27676 33502 24730 27760 25290 24295 24681 宁夏24172 31638 32293 36178 28035 30101 28544 29269 新疆30308 32990 33911 41001 27373 37746 24646 312792.主成分分析2.1构造因子变量的前提主成分分析的目的是从众多原有变量中提炼少数具有代表性的因自变量。

主成分分析法实例

主成分分析法实例

1、主成分法:用主成分法寻找公共因子的方法如下:假定从相关阵出发求解主成分,设有p 个变量,则可找出p 个主成分。

将所得的p 个主成分按由大到小的顺序排列,记为1Y ,2Y ,…,P Y , 则主成分与原始变量之间存在如下关系:11111221221122221122....................p p p p pp p pp p Y X X X Y X X X Y X X Xγγγγγγγγγ=+++⎧⎪=+++⎪⎨⎪⎪=+++⎩ 式中,ij γ为随机向量X 的相关矩阵的特征值所对应的特征向量的分量,因为特征向量之间彼此正交,从X 到Y 得转换关系是可逆的,很容易得出由Y 到X 得转换关系为:11112121212122221122....................p p p p pp p pp p X Y Y Y X Y Y Y X Y Y Yγγγγγγγγγ=+++⎧⎪=+++⎪⎨⎪⎪=+++⎩ 对上面每一等式只保留钱m 个主成分而把后面的部分用i ε代替,则上式变为:1111212112121222221122....................m m m m p p p mp m p X Y Y Y X Y Y Y X Y Y Y γγγεγγγεγγγε=++++⎧⎪=++++⎪⎨⎪⎪=++++⎩上式在形式上已经与因子模型相一致,且i Y (i=1,2,…,m )之间相互独立,且i Y 与i ε之间相互独立,为了把i Y 转化成合适的公因子,现在要做的工作只是把主成分i Y 变为方差为1的变量。

为完成此变换,必须将i Y 除以其标准差,由主成分分析的知识知其标准差即为特征根的平方根/i i F Y =,12m ,则式子变为:1111122112211222221122....................m m m m p p p pm m p X a F a F a F X a F a F a F X a F a F a F εεε=++++⎧⎪=++++⎪⎨⎪⎪=++++⎩这与因子模型完全一致,这样,就得到了载荷A 矩阵和 初始公因子(未旋转)。

主成分分析法概念及例题

主成分分析法概念及例题

主成分分析法主成分分析(principal components analysis,PCA)又称:主分量分析,主成分回归分析法[编辑]什么是主成分分析法主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。

在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。

它是一个线性变换。

这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。

主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。

这是通过保留低阶主成分,忽略高阶主成分做到的。

这样低阶成分往往能够保留住数据的最重要方面。

但是,这也不是一定的,要视具体应用而定。

[编辑]主成分分析的基本思想在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。

这些涉及的因素一般称为指标,在多元统计分析中也称为变量。

因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。

在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。

主成分分析正是适应这一要求产生的,是解决这类题的理想工具。

同样,在科普效果评估的过程中也存在着这样的问题。

科普效果是很难具体量化的。

在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。

如上所述,主成分分析法正是解决这一问题的理想工具。

因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。

根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。

主成分分析例题

主成分分析例题

0.68791zf -0.006045 -0.0054031
6
R的特征值及贡献率见下表
特征值 6.1366
贡献率(%) 0.76708
1.0421
0.13027
0.43595
0.054494
0.22037
0.027547
0.15191
0.018988
0.0088274
0.0011034
0.0029624
71.672 29.029 49.278 49.146 75.404 103.02 6.8215 74.523

8.602 4.7846 3.629 3.6747 5.0022 6.8215 1.137 6.7217
101.62 44.023 39.41 38.718 59.723 74.523 6.7217 102.71
0.32113x*1 +0.29516x*2 +0.38912x*3 +0.38472x*4+0.37955x*5 +0.37087x*6 +0.31996x*7 +0.35546x*8 -0.4151x*1-0.59766x*2 +0.22974x*3 +0.27869x*4+0.31632x*5 +0.37151x*6 -0.27814x*7 -0.15684x*8
主成分分析例题
2021/7/28
zf
1
某市为了全面分析机械类14个企业的经济效益,选择了8个不同的利润指标, 14个企业关于这8个指标的统计数据如下表所示,试比较这 14个企业的经济效 益。
2021/7/28
zf
2
表1 14家企业的利润指标的统计数据

主成分分析法例子

主成分分析法例子

x7 0.79 0.009 -0.93 -0.046 0.672 0.658 1 -0.03 0.89
x8 0.156 -0.078 -0.109 -0.031 0.098 0.222 -0.03 1
0.29
x9 0.744 0.094 -0.924 0.073 0.747 0.707 0.89 0.29
▲贡献率:
i
p
k
k 1
(i 1,2,, p)
▲合计贡献率:
i
k
k 1
p
k
k 1
(i 1,2,, p)
一般取合计贡献率达85—95%旳特征值 1, 2 ,, m
所相应旳第一、第二、…、第m(m≤p)个主成份。
④各主成份旳得分
l11 l12 l1p x1
Z
l21
l22
l2
p
x2
二主成份z2代表了人均资源量。
③第三主成份z3,与x8呈显出旳正有关程度 最高,其次是x6,而与x7呈负有关,所以能 够以为第三主成份在一定程度上代表了农业 经济构造。
显然,用三个主成份z1、z2、z3替代原来9个变量(x1, x2,…,x9),描述农业生态经济系统,能够使问题更进
一步简化、明了。
x4
0.0042
0.868
0.0037
75.346
x5
0.813
0.444
-0.0011
85.811
x6
0.819
0.179
0.125
71.843
x7
0.933
-0.133
-0.251
95.118
x8
0.197
-0.1
0.97
98.971

主成分分析实例

主成分分析实例

在统计学中,主成分分析(principal components analysis, PCA)是一种简化数据集的技术。

它是一个线性变换。

这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。

主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。

这是通过保留低阶主成分,忽略高阶主成分做到的。

这样低阶成分往往能够保留住数据的最重要方面。

在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。

这些涉及的因素一般称为指标,在多元统计分析中也称为变量。

因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。

在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。

主成分分析正是适应这一要求产生的,是解决这类题的理想工具主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。

主成分分析的主要作用体现在五个方面,第一,主成分分析能降低所研究的数据空间的维数。

第二,可通过因子负荷的结论,弄清X变量间的某些关系。

第三,可用于多为数据的一种图形表现方法。

第四,可由主成分分析构造回归模型,即把各个主成分作为新自变量代替原来自变量做回归分析。

第五,用主成分分析筛选回归变量。

案例分析:下表是关于全国31个省市的8项经济指标,以此为例,进行主成分分析。

主成分分析和因子分析实例

主成分分析和因子分析实例
2020/7/30
从本例可能提出的问题
目前的问题是,能不能把这个数据的6个变量用 一两个综合变量来表示呢?
这一两个综合变量包含有多少原来的信息呢? 能不能利用找到的综合变量来对学生排序呢? 这一类数据所涉及的问题可以推广到对企业、
对学校进行分析、排序、判别和分类等问题。
2020/7/30
主成分分析
这里,第一个因子主要和语文、历史、英语科有很强的正 相关;而第二个因子主要和数学、物理、化学三科有很强 的正相关。因此可以给第一个因子起名为“文科因子”, 而给第二个因子起名为“理科因子”。从这个例子可以看
出,因子分析的结果比主成分分析解释性更强。
R o ta t e d Co m p o n en t M a tra i x
主成分分析
那么这个椭圆有一个长轴和一个短轴 。在短轴方向上,数据变化很少;在 极端的情况,短轴如果退化成一点, 那只有在长轴的方向才能够解释这些 点的变化了;这样,由二维到一维的 降维就自然完成了。
2020/7/30
主成分分析
当坐标轴和椭圆的长短轴平行,那么代表长轴的 变量就描述了数据的主要变化,而代表短轴的变 量就描述了数据的次要变化。
2020/7/30
主成分分析和因子分析
介绍两种把变量维数降低以便于描述、理 解和分析的方法:主成分分析( principal component analysis)和因子 分析(factor analysis)。
在引进主成分分析之前,先看下面的例子 。
2020/7/30
成绩数据
100个学生的数学、物理、化学、语文、历史、 英语的成绩如下表(部分)。
Co mp on ent
MA TH
1 -. 38 7

主成分分析法实例

主成分分析法实例

【转】主成分分析法概述、案例实例分析主成分分析法主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。

在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。

这些涉及的因素一般称为指标,在多元统计分析中也称为变量。

因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。

在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。

主成分分析正是适应这一要求产生的,是解决这类题的理想工具。

主成分分析法是一种数学变换的方法, 它把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。

在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。

依次类推,I 个变量就有I个主成分。

这种方法避免了在综合评分等方法中权重确定的主观性和随意性,评价结果比较符合实际情况;同时,主成份分量表现为原变量的线性组合,如果最后综合指标包括所有分量,则可以得到精确的结果,百分之百地保留原变量提供的变差信息,即使舍弃若干分量,也可以保证将85%以上的变差信息体现在综合评分中,使评价结果真实可靠。

是在实际中应用得比较广的一种方法。

由于其第一主成份(因子)在所有的主成分中包含信息量最大,很多学者在研究综合评价问题时常采用第一主成分来比较不同实体间的差别。

综上所述,该方法的优点主要体现在两个方面:1.权重确定的客观性;2.评价结果真实可靠。

1.主成分分析的基本原理主成分分析:把原来多个变量划为少数几个综合指标的一种统计分析方法,是一种降维处理技术。

)记原来的变量指标为x1,x2,…,xP,它们的综合指标——新变量指标为z1,z2,…,zm(m≤p),则z1,z2,…,zm分别称为原变量指标x1,x2,…,xP的第一,第二,…,第m 主成分,在实际问题的分析中,常挑选前几个最大的主成分。

主成分分析原理及详解

主成分分析原理及详解

第14章主成分分析1 概述基本概念定义主成分分析是根据原始变量之间的相互关系,寻找一组由原变量组成、而彼此不相关的综合变量,从而浓缩原始数据信息、简化数据结构、压缩数据规模的一种统计方法。

举例为什么叫主成分,下面通过一个例子来说明。

假定有N 个儿童的两个指标x1与x2,如身高和体重。

x1与x2有显着的相关性。

当N较大时,N观测量在平面上形成椭圆形的散点分布图,每一个坐标点即为个体x1与x2的取值,如果把通过该椭圆形的长轴取作新坐标轴的横轴Z1,在此轴的原点取一条垂直于Z1的直线定为新坐标轴的Z2,于是这N个点在新坐标轴上的坐标位置发生了改变;同时这N个点的性质也发生了改变,他们之间的关系不再是相关的。

很明显,在新坐标上Z1与N个点分布的长轴一致,反映了N个观测量个体间离差的大部分信息,若Z1反映了原始数据信息的80%,则Z2只反映总信息的20%。

这样新指标Z1称为原指标的第一主成分,Z2称为原指标的第二主成分。

所以如果要研究N个对象的变异,可以只考虑Z1这一个指标代替原来的两个指标(x1与x2),这种做法符合PCA提出的基本要求,即减少指标的个数,又不损失或少损失原来指标提供的信息。

函数公式通过数学的方法可以求出Z1和Z2与x1与x2之间的关系。

Z1=l11x1+ l12x2Z2=l21x1+ l22x2即新指标Z1和Z2是原指标x1与x2的线性函数。

在统计学上称为第一主成分和第二主成分。

若原变量有3个,且彼此相关,则N个对象在3维空间成椭圆球分布,见图14-1。

通过旋转和改变原点(坐标0点),就可以得到第一主成分、第二主成分和第三主成分。

如果第二主成分和第三主成分与第一主成高度相关,或者说第二主成分和第三主成分相对于第一主成分来说变异很小,即N个对象在新坐标的三维空间分布成一长杆状时,则只需用一个综合指标便能反映原始数据中3个变量的基本特征。

PCA满足条件一般条件一般来说,N个对象观察p个指标,可以得到N*p个数据(矩阵)。

主成分分析案例

主成分分析案例

Y2得分
-2.06481 2.32993 -1.47145 0.66326 -0.87181 1.25757 -1.40987 -0.36439 0.04577 -2.04139 -0.42078 0.33126 0.07660 0.86909 0.45974 -0.83575
主成分分析在 市场研究中的应用
1——5 组表示男性,6——10 组表示女性 1——5, 6——10 年龄从小到大排序
假若你是该食品加工业决策部 门的高级顾问,为了对食品生 产作出合理决策,请你对以上 的调查资料进行分析,为决策 者提供建议。
特征向量
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
特征根 i
方差贡献率
女性喜欢
一般喜欢
孩子 咖喱饭
炸肉饼、火腿面包
成人 鸡蛋烩饭、炸猪排 酸汤、大头鱼
一般不喜欢 特别不喜欢
孩子 干咖喱、浓汤 成人 煮牛肉、生蛋
菜粥、清汤
饼干、带馅面包 酱面条、烧鱼
服装的定型分类问题
为了较好地满足市场的需要,服装生产厂 要了解所生产的一种服装究竟设计几种型号合 适?这些型号的服装应按怎样的比例分配生产 计划才能达到较好的经济效益?
4、取每一组的中心 ( y1*k , y2*k ) (k=1,2,…,g) 作为该组的 代表点。
相应原16个指标的尺寸:
x1' r11 y1*k r12 y2*k x2' r21 y1*k r22 y2*k
x1' 6 r16,1 y1*k r16,2 y2*k
5、各种型号的比例按 该组样品数/128 确定。
Y2
0.513225 0.203116 -0.182858 0.193618 0.217290 0.113642 -0.164527 -0.114637 -0.509240 -0.025832 0.083471 0.132592 0.105402 0.199407 -0.181330 -0.261367 -0.295756

主成分分析法概念及例题

主成分分析法概念及例题

主成分分析法主成分分析(principal components analysis,PCA)又称:主分量分析,主成分回归分析法[编辑]什么是主成分分析法主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。

在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。

它是一个线性变换。

这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。

主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。

这是通过保留低阶主成分,忽略高阶主成分做到的。

这样低阶成分往往能够保留住数据的最重要方面。

但是,这也不是一定的,要视具体应用而定。

[编辑]主成分分析的基本思想在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。

这些涉及的因素一般称为指标,在多元统计分析中也称为变量。

因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。

在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。

主成分分析正是适应这一要求产生的,是解决这类题的理想工具。

同样,在科普效果评估的过程中也存在着这样的问题。

科普效果是很难具体量化的。

在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。

如上所述,主成分分析是解决这一问题的理想工具。

因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。

根据这一点,通过对原始变量相关矩阵部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

§8 实例 实例1计算得1x =71.25,2x =67.5分析1:基于协差阵∑ 求主成分。

369.6117.9117.9214.3S ⎛⎫= ⎪⎝⎭特征根与特征向量(S无偏,用SPSS )Factor 1 Factor 2 11x x - 0.880 -0.47422x x -0.474 0.880 特征值 433.12 150.81 贡献率0.7417 0.2583注:样本协差阵为无偏估计11(11)1n n n S X I X n n''=--, 所以,第一、二主成分的表达式为1122120.88(71.25)0.47(67.5)0.47(71.25)0.88(67.5)y x x y x x =-+-⎧⎨=--+-⎩ 第一主成分是英语与数学的加权和(反映了综合成绩),且英语的权数要大于数学的权数。

1y 越大,综合成绩越好。

(综合成分)第二主成分的两个系数异号(反映了两科成绩的均衡性)。

不妨将英语称为文科,数学称为理科。

2y 越大,说明偏科(文、理成绩不均衡),2y 越小,越接近于零,说明不偏科(文、理成绩均衡)。

(结构成分)问题:英语的权数为何大?如何解释? 分析2:基于相关阵R 求主成分。

因为1x =71.25,2x =67.5所以相关阵11R ⎛=⎪⎪⎭解得R 的特征根为:1λ=1.419,2λ=0.581,对应的单位特征向量分别为:Factor 1 Factor 2 111x x s - 0.707 0.707 222x x s - 0.707 -0.707 特征根 1.419 0.581 贡献率0.7090.291所以,第一、二主成分的表达式为12112271.2567.50.7070.70717.9813.6971.2567.50.7070.70717.9813.69x x y x x y --⎧=+=+⎪⎪⎨--⎪=-=-⎪⎩1122120.039(71.25)0.052(67.5)0.039(71.25)0.052(67.5)y x x y x x =-+-⎧⎨=---⎩ 1122120.0390.052 6.2730.0390.0520.671y x x y x x =+-⎧⎨=-+⎩ *2*11707.0707.0x x y += *2*12707.0707.0x x y -=基于相关阵的更说明了:第一主成分是英语与数学的加权总分。

第二主成分是对两科成绩均衡性的度量。

此例说明:基于协差阵与基于相关阵的主成分分析的结果不一致。

结合此例的实际背景,经对比分析可知,基于协差阵的主成分分析更符合实际。

Y1 Y2 Y3 Y4 Y5 Y6x 1:身高 0.469 -0.365 -0.092 -0.122 0.08 -0.786 x2:坐高 0.404 -0.397 -0.613 0.326 -0.027 0.443 x 3:胸围 0.394 0.397 0.279 0.656 -0.405 -0.125 x 4:臂长 0.408 -0.365 0.705 -0.108 0.235 0.371 x 5:肋围 0.337 0.569 -0.164 -0.019 0.731 0.034 x 6:腰围 0.427 0.308 -0.119-0.661 -0.49 0.179 特征值3.287 1.406 0.459 0.426 0.295 0.126 贡献率 0.6373 0.169 0.0719 0.0508 0.0351 0.0091 累计贡献率 0.6373 0.8063 0.87810.9289 0.964 1从第一主成分可看出,各原始变量的载荷均为正,且近似相等。

若1y 较大,则意味着各原始变量也较大,说明身材高大;若1y 较小,则意味着各原始变量也较小,说明身材矮小。

因此,第一主成分1y 可称为(身材)大小成分。

(规模成分)从第二主成分可看出,在“身高*1x 、坐高*2x 、臂长*4x ”等纵向指标上有中等的负载荷,在“胸围*3x 、肋围*5x 、腰围*6x ”等横向指标上有中等的正载荷。

因此,第二主成分2y 可称为体形成分。

(比例成分—纵、横比例)从第三主成分可看出,在“坐高*2x ”上有较大的负载荷,在“臂长*4x ”上有较大的正载荷,而其他变量上的载荷都较小。

故第三主成分基本上是反映的是“坐高*2x ”与“臂长*4x ”的比例。

因此,第三主成分3y 可称为上身比例成分。

(局部比例成分)第四主成分的贡献率较小,实际意义也不好解释,故取前两个或前三个主成分即可。

例、用“消费支出数据”,从样本相关矩阵出发进行主成分分析,食品服装用品医疗通讯文化居住杂项北京2959.19 730.79 749.41 513.34 467.87 1141.82 478.42 457.64 天津2459.77 495.47 697.33 302.87 284.19 735.97 570.84 305.08 河北1495.63 515.9 362.37 285.32 272.95 540.58 364.91 188.63 山西1406.33 477.77 290.15 208.57 201.5 414.72 281.84 212.1 内蒙古1303.97 524.29 254.83 192.17 249.81 463.09 287.87 192.96 辽宁1730.84 553.9 246.91 279.81 239.18 445.2 330.24 163.86 吉林1561.86 492.42 200.49 218.36 220.69 459.62 360.48 147.76 黑龙江1410.11 510.71 211.88 277.11 224.65 376.82 317.61 152.85 上海3712.31 550.74 893.37 346.93 527 1034.98 720.33 462.03 江苏2207.58 449.37 572.4 211.92 302.09 585.23 429.77 252.54 浙江2629.16 557.32 689.73 435.69 514.66 795.87 575.76 323.36 安徽1844.78 430.29 271.28 126.33 250.56 513.18 314 151.39 福建2709.46 428.11 334.12 160.77 405.14 461.67 535.13 232.29 江西1563.78 303.65 233.81 107.9 209.7 393.99 509.39 160.12 山东1675.75 613.32 550.71 219.79 272.59 599.43 371.62 211.84 河南1427.65 431.79 288.55 208.14 217 337.76 421.31 165.32 湖北1783.43 511.88 282.84 201.01 237.6 617.74 523.52 182.52 湖南1942.23 512.27 401.39 206.06 321.29 697.22 492.6 226.45 广东3055.17 353.23 564.56 356.27 811.88 873.06 1082.82 420.81 广西2033.87 300.82 338.65 157.78 329.06 621.74 587.02 218.27 海南2057.86 186.44 202.72 171.79 329.65 477.17 312.93 279.19 重庆2303.29 589.99 516.21 236.55 403.92 730.05 438.41 225.8 四川1974.28 507.76 344.79 203.21 240.24 575.1 430.36 223.46 贵州1673.82 437.75 461.61 153.32 254.66 445.59 346.11 191.48 云南2194.25 537.01 369.07 249.54 290.84 561.91 407.7 330.95 西藏2646.61 839.7 204.44 209.11 379.3 371.04 269.59 389.33 陕西1472.95 390.89 447.95 259.51 230.61 490.9 469.1 191.34 甘肃1525.57 472.98 328.9 219.86 206.65 449.69 249.66 228.19 青海1654.69 437.77 258.78 303 244.93 479.53 288.56 236.51 宁夏1375.46 480.89 273.84 317.32 251.08 424.75 228.73 195.93 新疆1608.82 536.05 432.46 235.82 250.28 541.3 344.85 214.4x5 0.828 0.086 0.585 0.531 1 x6 0.729 0.255 0.856 0.684 0.708 1x7 0.670 -0.201 0.569 0.314 0.800 0.647 1x8 0.877 0.349 0.667 0.628 0.776 0.745 0.525 10.9055 -0.0898 0.3147 -0.1334 -0.1170 -0.0158 -0.0199 0.2023 0.2981 0.8712 0.2515 -0.0968 0.2807 0.0052 0.0204 -0.0154 0.8470 0.0757 -0.3349 -0.3484 -0.0370 0.1956 -0.0550 -0.0282 0.7225 0.4008 -0.3622 0.4199 -0.0321 0.0324 0.0289 0.0833 0.8756 -0.2695 0.2116 0.2331 0.1135 0.0359 -0.2050 -0.0737 0.9163 0.0316 -0.2349 -0.1488 0.0019 -0.2819 -0.0263 -0.0440 0.7367 -0.5768 -0.0257 0.0169 0.3078 0.0321 0.1667 0.0066 0.89480.11160.26180.0684-0.28060.03010.1324-0.1284x 1 0.401 -0.077 -0.415 -0.209 -0.221 0.75 0.065 0.045x2 0.132 0.749 -0.332 -0.152 0.529 -0.057 -0.067 -0.015 x 3 0.375 0.065 0.442 -0.547 -0.07 -0.105 0.181 -0.559 x 4 0.32 0.345 0.478 0.659 -0.061 0.309 -0.095 -0.093 x 5 0.388 -0.232 -0.279 0.366 0.214 -0.273 0.673 -0.103 x 6 0.406 0.027 0.31 -0.233 0.004 -0.163 0.086 0.806 x 7 0.326 -0.496 0.034 0.026 0.58 0.025 -0.548 -0.092 x 8 0.396 0.096 -0.345 0.107 -0.529 -0.476 -0.435 -0.086 特征值 5.098 1.352 0.5750.406 0.281 0.073 0.093 0.122 贡献率 0.6373 0.169 0.07190.0508 0.0351 0.0091 0.0116 0.0153 累计贡献率 0.6373 0.8063 0.87810.9289 0.964 0.9731 0.9848 1从第一主成分可看出,各原始变量的载荷均为正,且近似相等(除了x 2以外),若1y 较大,则意味着各原始变量也较大;若i y 较小,则意味着各原始变量也较小。

相关文档
最新文档