多元统计分析之主成分分析(2016)

合集下载

多元统计分析第7章-主成分分析

多元统计分析第7章-主成分分析
(证毕)
22
且使得
第七章 §7.1总体的主成分
定理7.1.1的推论
设Z=(Z1, Z2 ,…, Z p )′为p维随机向量,则 其分量Zi (i=1,2,…, p) 依次是X的第i主成分 的充分必要条件是: ① Z=A'X,A为正交阵; ② D(Z)=diag(λ1 , λ2 , … , λp ),即随机向量 Z的协差阵为对角阵; ③ λ1≥λ2≥…≥λp ≥0 .
表7.1
28
第七章 §7.1总体的主成分
主成分的性质
, A 事实上,由 A , AA故有
k 1
(4) 2 ( Z k , X i ) 1 (i 1,2,, p)
p
ai1 p 2 p p k aik 2 ii (ai1 ,, aip ) k aik ,即 2 ( Z k , X i ) 1. a k 1 ip k 1 k 1 ii
(见附录(8.3)式)
16
第七章 §7.1总体的主成分
主成分的求法
因a1≠0,故|Σ -λI|=0,求解(7.1.4),其实就 是求Σ 的特征值和特征向量问题.设λ=λ1是Σ 的 最大特征值,则相应的单位特征向量a1即为所求 . 一般地,求X的第i主成分就是求Σ 的第i大特征 值对应的单位特征向量. 定理7.1.1 设X=(X1,…,Xp)′是p维随机向 量,且D(X)=Σ ,Σ 的特征值λ 1≥λ 2≥…≥λ p , A1,a2,…,ap为相应的单位正交特征向量,则X的 17 第i主成分为
10
第七章 §7.1总体的主成分
主成分的几何意义
从代数学观点看主成分就是p个变量的一些 特殊的线性组合,而从几何上看这些线性组合正 是把X1,…,Xp构成的坐标系旋转产生的新坐标 系,新坐标轴使之通过样本变差最大的方向(或 者说具有最大的样本方差). 设有n个观测,每个观测有p个变量X1,…,Xp , 它们的综合指标(主成分)记为Z1,…,Zp . 当p=2时原变量为X1, X2.设(X1, X2 )服从二元 正态分布,则样品点X(i) =(xi1, xi2 ) (i=1,2,…n)的 11 散布图(见下面图形)在一个椭园内分布着.

多元统计分析第七章主成分分析习题答案

多元统计分析第七章主成分分析习题答案

7.1 设随机变量12X(X ,X )'=的协差阵为21,12⎡⎤∑=⎢⎥⎣⎦试求X的特征根和特征向量,并写出主成分。

解:先求X的特征根λ,λ满足方程:21012-λ=-λ,即2(2)10-λ-=,因此两个特征根分别为123, 1.λ=λ=设13λ=对应的单位特征向量为()1121a ,a ',则()1121a ,a '满足:1121a 110a 110-⎛⎫⎡⎤⎛⎫= ⎪ ⎪⎢⎥-⎣⎦⎝⎭⎝⎭,故可以取1121a a ⎛⎛⎫ = ⎪ ⎝⎭ ⎝,其对应主成分为:112F X X 22=+;设21λ=对应的单位特征向量为()1222a ,a ',则()1222a ,a '满足:1222a 110a 110⎛⎫⎡⎤⎛⎫=⎪ ⎪⎢⎥⎣⎦⎝⎭⎝⎭,故可以取1222a a ⎛⎫⎛⎫ ⎪= ⎪ ⎝⎭- ⎝,其对应的主成分为:212F 22=-.7.2设随机变量123X (X ,X ,X )'=的协差阵为120250,002-⎡⎤⎢⎥∑=-⎢⎥⎢⎥⎣⎦试求X的主成分及主成分对变量X的贡献率。

解:先求X的特征根λ,λ满足方程:12025002-λ---λ=-λ,即()2(2)610-λλ-λ+=,因此三个特征根分别为1235.8284,2,0.1716λ=λ=λ=设1 5.8284λ=对应的单位特征向量为()112131a ,a ,a ',则它满足:1121314.828420a 020.82840a 000 3.8284a 0--⎡⎤⎛⎫⎛⎫⎪ ⎪⎢⎥--=⎪ ⎪⎢⎥ ⎪ ⎪⎢⎥-⎣⎦⎝⎭⎝⎭,故可以取 112131a 10.38271a 2.41420.92392.6131a 00⎛⎫⎛⎫⎛⎫⎪ ⎪ ⎪=-=- ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭,其对应主成分为: 112F 0.3827X 0.9239X =-,其贡献率为5.828472.86%5.828420.1716=++;设22λ=对应的单位特征向量为()122232a,a ,a ',则它满足:122232120a 0230a 0000a 0--⎡⎤⎛⎫⎛⎫ ⎪ ⎪⎢⎥-= ⎪ ⎪⎢⎥ ⎪ ⎪⎢⎥⎣⎦⎝⎭⎝⎭,故可以取122232a 0a 0a 1⎛⎫⎛⎫⎪ ⎪= ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭,其对应主成分为: 23F X =,其贡献率为225%5.828420.1716=++;设30.1716λ=对应的单位特征向量为()132333a ,a ,a ',则它满足:1323330.828420a 02 4.82840a 000 1.8284a 0-⎡⎤⎛⎫⎛⎫⎪ ⎪⎢⎥-=⎪ ⎪⎢⎥ ⎪ ⎪⎢⎥⎣⎦⎝⎭⎝⎭,故可以取132333a 10.92391a 0.41420.38271.0824a 00⎛⎫⎛⎫⎛⎫⎪ ⎪ ⎪== ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭,其对应主成分为: 312F 0.9239X 0.3827X =+,其贡献率为0.17162.14%5.828420.1716=++.7.3 设随机变量12X (X ,X )'=的协差阵为14,4100⎡⎤∑=⎢⎥⎣⎦试从∑和相关阵R出发求出总体主成分,并加以比较。

多元统计的应用 主成分分析

多元统计的应用 主成分分析

(5)
(6) (7)
(8) T1 ΣT1 由于 X 的协差阵 Σ 为非负定的,其特征方程(7)的根均大于零, 不 妨设 1 2

p 0 。那么,协差阵 Σ 的最大特征值为 1 ,
其相应的单位化特征向量为 T1 。
在求第二主成分之前,首先明确: 由(6)知 Cov(Y2 , Y1 ) T2ΣT1 T2T1 。 那么,如果 Y2 与 Y1 相互独立,即有 T2T1 0 或 T1T2 0 。这时,我 们可以构造求第二主成分的目标函数,即 (9) 2 (T2 , , ) T2ΣT2 (T2T2 1) 2 (T1T2 ) 对目标函数 2 (T2 , , ) 求导数有: 2 2 ΣT2 2T2 2 T1 0 T2 用 T1 左乘(10)式有 (10)
主成分分析
多元统计分析中由于变量较多,增加了分析 问题的复杂性。实际问题中,变量之间可能存在 一定的相关性,因此,多变量中可能存在信息的 重叠。人们希望通过克服相关性、重叠性,用较 少的变量来代替原来较多的变量,而这种代替可 以反映原来多个变量的大部分信息,这实际上是 一种“降维”的思想。
一般说来,在主成分分析适用的场合,用较 少的主成分就可以得到较多的信息量。以各个主 成分为分量,就得到一个更低维的随机向量;因 此,通过主成分既可以降低数据“维数”又保留 了原数据的大部分信息。

p 0 。
由(12)知道 Y2 的最大方差值为第二大特征根 2 ,其相应的单位化 一般情形,第 k 主成分应该是在 TkTk 1 且 TkTi 0 或 TiTk 0 ( i k )的条件下,使得 D(Yk ) TkΣTk 达到最大的 Yk Tk X 。这 样目标函数为:

多元统计分析主成分分析(1)

多元统计分析主成分分析(1)
3. 求特征根所对应的单位特征向量 4. 写出主成分的表达式
例1 下面是8 个学生两门课程的成绩表
语文 x 1 100 90 70 70 85 55 55 45
数学 x 2 65 85 70 90 65 45 55 65
对此进行主成分分析。
1. 求样本均值和样本协方差矩阵
X xx127617..255
3 1.56
(a 1,a 12,a 13)1 (0 .5,0 .6 4,0 .2 7)1 (a 1,2 a 2,2 a 3)2 (0 .8, 0 1 .3, 0 3 .4)8 (a 1,3 a 2,3 a 3)3 (0 .0,0 .3 8, 0 5 .5)3
4. 由此我们可以写出三个主成分的表达式:
S1302..3314 18.75
2. 求解特征方程 S I =0
S1302..3314 18.75
32.43 10.13 10.13 18.570
(3.2 4 3 )1 (.8 5 7 ) 1.0 1 2 3 0
化简得:251 .9050.0 9 0 07

S 17.12 21.11

30.00 32.58 55.53
2. 求解协方差矩阵的特征方程 SI 0
46.67 17.12 30.00 17.12 21.11 32.58 0 30.00 32.58 55.53
3.解得三个特征值 和对应的单位特征向量:
1 98.15 2 23.60
F 1 0 . 5 ( x 1 1 6 . 2 ) 6 0 . 4 ( x 1 2 2 7 . 3 ) 0 7 . 7 ( x 3 5 1 . 2 )1 F 2 0 . 8 ( x 1 1 1 . 2 ) 6 0 . 3 ( x 2 1 3 7 . 3 ) 0 7 . 4 ( x 3 8 5 . 2 )1 F 3 0 . 0 ( x 1 1 3 . 2 ) 6 0 . 8 ( x 1 2 5 7 . 3 ) 0 7 . 5 ( x 3 3 5 . 2 )1

多元统计分析主成分分析

多元统计分析主成分分析

第主 成 分
二分 析 的
章基 本 概 念
定义与目的
定义
主成分分析是一种降维技术,通过线 性变换将多个具有相关性的变量转化 为少数几个互不相关的综合变量,这 些综合变量称为主成分。
目的
简化数据结构,降低维度,揭示隐藏在 数据中的模式和关系,同时保留原始数 据中的大部分变异信息。
原理与步骤
原理与步骤
02 03
碎石图(Scree Plot)
一种可视化工具,用于辅助确定主成分的数量。通过观察特征值 的变化趋势,可以判断哪些特征值对应的主成分具有较大的解释 力度,从而决定保留的主成分数量。
解释性原则
根据实际问题的需求和背景知识,选择能够解释数据变异性、反 映主要结构或关系的主成分。
第主 成 分
四分 析 的
转换数据
将原始数据转换为新的主成分坐 标系,得到主成分得分。
结果解释与讨论
结果解释
通过主成分分析,我们提取了三个主成分,这三个主成分分别代表了用户购买的商品类别、购买频率和购买金额。这 三个主成分解释了原始数据方差的80%。
结果讨论
通过主成分分析,我们可以更好地理解用户购买行为的特点和规律。例如,我们可以发现某些商品类别对用户购买行 为的影响较大,而有些商品类别的影响较小。此外,我们还可以发现购买频率和购买金额对用户购买行为的影响程度 不同。这些结果可以为电商平台的营销策略提供有价值的参考信息。
因子分析
识别潜在因子
主成分分析可以用于识别潜在的因子,这些因子可能对数据的解释有重要影响。通过主 成分分析,可以确定这些因子的数量和性质,从而更好地理解数据的内在结构。
解释变量间的关系
主成分分析可以帮助解释变量间的关系,通过将多个变量转化为少数几个主成分,可以 更好地理解变量间的相互作用和依赖关系。

多元统计分析之主成分分析(2016)

多元统计分析之主成分分析(2016)

根据旋转变换的公式:

y1 y2

x1 cos x2 sin x1 sin x2 cos

y1 cos sin x1 Ux y2 sin cos x2
U为旋转变换矩阵,它是正交矩阵,即有
U U1,UU I
k
p
i i
i 1
i 1
来描述,称为累积贡献率。
我们进行主成分分析的目的之一是希望用尽可能少 的主成分F1,F2,…,Fk(k≤p)代替原来的P个指标。 到底应该选择多少个主成分,在实际工作中,主成分 个数的多少取决于能够反映原来变量80%以上的信息量 为依据,即当累积贡献率≥80%时的主成分的个数就足 够了。最常见的情况是主成分为2到3个。
所以 u2u1 0
则,对 p 维向量u2 ,有
V
(F2 )

u2 u2

ip1i u2u i ui u 2

p

i 1
i
(u2ui
)
2

2
p

(u2ui
)2
i2
2 ip1u2uiuiu2 2u2UUu2 2u2u2 2
所以如果取线性变换: F2 u12 X1 u22 X 2 u p2 X p 则 F2的方差次大。
up
)

u21
u22

u2
p


u p1
up2

u
pp

X ( X1, X 2 ,, X p )
§4 主成分的性质
一、均值 E(Ux) U
二、方差为所有特征根之和
p

多元统计分析——主成分分析法PPT学习教案

多元统计分析——主成分分析法PPT学习教案
第2页/共59页
思考3——服装的定型分类问题
为了较好地满足市场的需要,服装 生产厂要了解所生产的一种服装究竟设 计几种型号合适?这些型号的服装应按 怎样的比例分配生产计划才能达到较好 的经济效益?
第3页/共59页
大纲
计算等
1.基本思想 2.定义 3.主成分的性质、
4.案例
第4页/共59页
5.主成分回归
Y2得分
-3.94396 2.43505 0.12551 3.34907 0.61942 1.90248 2.31576 2.53147 -0.79528 -1.07448 -1.09413 0.61915 -1.13709 -1.92281 -0.48313
第33页/共59页
第一主成分名次
16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
多元统计分析——主成分分析法
会计学
1
思考1
反映地区社会经济发展的指标体系
X1:国内生产总值(GDP) X3:第三产业产值占GDP比重 X5:工业企业劳动生产率 X7:每万人拥有卫生技术人员数 X9:教育经费投入占GDP比重 X11:人均邮电业务总量 X13:人均固定资产投资 X15:地方财政收入占GDP比重 X17:科研经费占GDP比重
反映地区社会经济发展的指标体系
X1:国内生产总值(GDP) X3:第三产业产值占GDP比重 X5:工业企业劳动生产率 X7:每万人拥有卫生技术人员数 X9:教育经费投入占GDP比重 X11:人均邮电业务总量 X13:人均固定资产投资 X15:地方财政收入占GDP比重 X17:科研经费占GDP比重
X2:人均GDP X4:人均出口额 X6:人均社会消费品零售额 X8:每万人高等学校在校生数 X10:人均货运总量 X12:每万人电话机装机数 X14:人均实际利用外资 X16:每万人科研机构数

最新主成分分析---多元统计分析课件(人大何晓群)教学讲义PPT课件

最新主成分分析---多元统计分析课件(人大何晓群)教学讲义PPT课件
性变换,形成少数几个新的综合变量Y1,Y2, ,YP,使得各综
合变量之间相互独立且能解释原始变量尽可能多的信息,这样, 在以损失很少部分信息为代价的前提下,达到简化数据结构, 提高分析效率的目的。这一节,我们着重讨论主成分分析的几 何意义,为了方便,我们仅在二维空间中讨论主成分的几何意 义,所得结论可以很容易地扩展到多维的情况。
主成分分析---多元统计分析课 件(人大何晓群)
第五章 主成分分析
•§5.1 主成分分析的基本思想与理论 •§5.2 主成分分析的几何意义 •§5.3 总体主成分及其性质
•§5.4 样本主成分的导出 •§5.5 有关问题的讨论 •§5.6 主成分分析步骤及框 图 •§5.7 主成分分析的上机实 现
在几何上表示就是将坐标轴按逆时针方向旋转角度,得到新坐
标轴 Y 1 和Y 2 ,坐标旋转公式如下:
Y1 X1cosX2sin Y2 X1sinX2cos
2021/4/8
中国人民大学六西格玛质量管理研究中心
8
目录 上页 下页 返回 结束
§5.1.2 主成分分析的基本理论
由于可以任意地对原始变量进行上述线性变换, 由不同的线性变换得到的综合变量 的统Y计特性也 不尽相同。因此为了取得较好的效果,我们总是希 望 Yi 的ui方'X差尽可能大且各 之间Y i 互相独立, 由于
vaYir) (vauri'X ()= ui 'ui
对 X进行线性变换,可以形成新的综合变量,用 Y表示, 也就是说,新的综合变量可以由原来的变量线性表示,即满 足下式:
Y1 u11X1 u12X2 u1p Xp Y2 u21X1 u22X2 u2p Xp Yp up1X1 up2X2 uppXp
(5.1)

多元统计分析-主成分分析

多元统计分析-主成分分析

2011-2-25
西安财经学院
10
(五)主成分分析的应用
例1:有全国28个地区(除西藏、重庆、海南)工业企业经济效益评 价指标,分别为: 百元固定资产产值(X1),百元固定资产利税(X2) ,百元资 金利税(X3) ,百元工业工业总产值实现利税(X4) ,百元销 售收入实现利税(X5) ,每吨标准煤实现工业产值(X6) ,每 千瓦电力实现工业产值(X7) ,全员劳动生产率(X8) ,每百 元流动资金实现产值(X9)。 问题:1、我们感觉这9个指标之间可能存在强相关性,要运用9个指 标去综合评价可能会对某些方面信息重复综合,影响综合评价的 可信度。 2、这9个指标对企业经济效益评价显得有些多了,但是删除 任何一个指标又没有充足的理论支持。 基于以上分析,我们建议可以用主成分来对各地区经济效益评价。
根据上表结果,我们选择主成分F1,F2对各个地区工业 企业经济效益进行评价。这时候,选择的主成分解释了 总信息量的多少?
2011-2-25 西安财经学院 12
(五)主成分分析的应用
根据主成分分析,我们也有各主成分线性转换矩阵见表2
主成分 变量 X1 X2 X3 X4 X5 X6 X7 X8 X9 F1 0.358 0.383 0.370 0.095 0.256 0.363 0.346 0.375 0.349 F2 -0.276 0.091 0.216 0.712 0.494 -0.179 -0.240 -0.010 -0.167 F3 -0.103 -0.143 -0.187 -0.404 0.626 0.141 0.221 0.233 -0.505 F4 -0.087 -0.156 0.055 -0.325 0.392 -0.563 -0.077 0.046 0.617 F5 -0.143 -0.176 -0.020 0.229 -0.011 -0.173 0.852 -0.372 0.042 F6 -0.227 -0.247 -0.245 0.248 -0.279 -0.154 0.150 0.799 0.054 F7 -0.690 -0.094 -0.028 -0.059 0.041 0.599 -0.060 -0.099 0.371 F8 0.449 -0.356 -0.592 0.313 0.252 0.256 -0.107 -0.122 0.260 F9 0.167 -0.756 0.605 0.003 -0.040 0.148 -0.069 0.030 -0.071

应用多元统计分析实验报告之主成分分析

应用多元统计分析实验报告之主成分分析

应用多元统计分析实验报告一、研究目的下表1是2010年各地区6项重要指标的数据,这6项指标分别是:X1—城市用水普及率(%)X2—城市燃气普及率(%)X3—每万人拥有公共交通车辆(标台)X4—人均城市道路面积(平方米)X5—人均公园绿地面积(平方米)X6—每万人拥有公共厕所(座)表1 各地区城市设施水平指标本次实验的研究目的是根据这些指标用主成分分析法对各地区城市设施水平进行综合评价和排序,得出结论并提出建议。

二、研究过程从标准化数据出发,首先计算这些指标的主成分,然后通过主成分的大小进行排序。

1.利用SPSS进行因子分析表2和表3分别是特征根(方差贡献率)和因子载荷阵的信息。

表3 因子载荷阵2.利用因子分析结果进行主成分分析 ⑴.表4是特征向量的信息表4 特征向量矩阵 z1 z2 z3 z4 z5 z6 x1 0.52 0.35 (0.31) (0.00) 0.08 0.70 x2 0.58 0.09 (0.19) 0.45 (0.37) (0.53) x3 0.17 0.67 0.26 (0.36) 0.41 (0.39) x4 0.43 (0.32) 0.32 (0.66) (0.41) 0.03 x5 0.41 (0.51) 0.25 0.21 0.68 (0.01) x6 (0.01) 0.23 0.79 0.43 (0.24) 0.28⑵.利用主成分得分进行综合评价时,从特征向量可以写出所有6个主成分的具体形式:Y1=0.52X1+0.68X2+0.17X3+0.43X4+0.41X5-0.01X6Y2=0.35X1+0.09X2+0.67X3-0.32X4-0.51X5+0.23X6 Y3=-0.31X1-0.19X2+0.26X3+0.32X4+0.25X5+0.79X6 Y4=0.00X1+0.45X2-0.36X3-0.66X4+0.21X5+0.43X6 Y5=0.08X1-0.37X2+0.41X3-0.41X4+0.68X5-0.24X6 Y6=0.70X1-0.53X2-0.39X3+0.03X4-0.01X5+0.28X6⑶.以特征根为权,对6个主成分进行加权综合,得出各地区的综合得分及排序,具体数据见表5.综合得分的计算公式是6161Y Y Y ii ∑∑+⋯+=λλλλ三、结果说明从表5可以看出,北京、天津。

10数量经济模型多元统计分析(主成分分析法)

10数量经济模型多元统计分析(主成分分析法)
16
若主成分累计贡献率:
k j j 1 m i
( ) 85%
i 1
(k<m)
则选择前k个主成分为主分量:
F1 , F2 , , FK
这K个主分量相互独立,反映了原始变量中较多 (85%以上)信息 主成分对于每个样本也有对应数据
17
3、基于主分量的住宅项目特征定价模型
以住宅项目单位销售均价p为因变量,以其 主分量为解释变量,采用线性(也可选半对 数)特征方程建立住宅项目特征价格模型:
19
4、案例应用 重庆市沙坪坝区2005年前后开发的住宅特 征定价模型(市场化定价)
影响住宅均价特征因素选择
共选择了12个影响住宅项目均价的特征因素 建筑类型 交通情况 交易时间 是否装修(0,1变量)
20
户型与设施 建筑外观风格 地段 周边环境 教育配套 生活配套 适合投资 营运评价
21
样本数据收集
以重庆市沙坪坝区2005年前后开发的23个项 目为样本点收集数据。 一些数据为客观数据,一些数据带有主观性。 数据收集整理结果见EXCEL工作簿文件
22
数据处理内容及所应用的软件 涉及到以下几类数据处理
数据标准化——变量代换关系 相关系数矩阵特征值与特征向量 主成分及对应样本值 以上可用SAS统计软件的主成分分析(PROC PRINCOMP)过程实现。
企业经济效益绩效评价类加权主成分分析在企业物流绩效评价中的应用基于主成分分析的电子信息企业财务评价主成分分析法在公司综合评价中的应用基于主成分分析法和01规划的分销商选择研究主成分分析在城市物流绩效评价中的应用主成分分析法在上市公司盈利能力评价中的应用基于主成分分析法的中国证券投资基金综合评价模型研究主成分分析法在产业有效竞争量化评价中的应用主成分分析在企业经济效益评价中的应用57地区经济发展水平比较基于主成分分析的资源型城市经济社会发展综合评价研究以嘉峪关市为例基于主成分分析的区域创新能力评价建设用地集约节约利用的主成分分析以乐山市井研县主成分聚类分析在县域生态经济分区中的应用以东营市河口区为例主成分分析在环境与贫困危机研究中的应用以甘肃省43个贫困县为例基于主成分分析的新疆区域产业竞争力评价基于核主成分分析的区域经济社会发展综合评价主成分分析和因子分析在评价区域经济发展水平中的应用基于主成分分析法的区域产业竞争力评价58地区资源利用潜力评价基于主成分分析法的城市土地利用潜力评价基于主成分分析的区域水资源开发程度综合评价基于主成分法的区域土地利用变化驱动力分浙江省城市土地集约利用的空间差异研究以psr与主成分分析的视角中心城市综合实力的主成分分析59地区或行业科技进步发展能力创新能力评价城市化水平评价基于主成分分析的自主创新能力综合评价研究陕西省农业可持续发展能力主成分分析基于主成分分析法的制造业产业技术创新评价模型及应用基于主成分综合模型和聚类分析的连云港市城市竞争力评价基于主成分分析的发电企业竞争力综合评价基于改进主成分分析法的全国城市化水平研究基于主成分分析的中国产业自主创新能力测评60地区消费水平评价居住水平多影响因素因素间有相关性分析及指标预测武汉城市旅游圈协作发展的主要影响因素分析基于主成分分析法用于主成分分析合成房地产泡沫指数刘洪玉用于风险分析应用主成分分析法纵向构建企业财务风险预警模型基于分组主成分的上市公司财务风险综合评价模型研基于灰色数列预测和主成分分析的国债风险仿真模型61建筑土地房地产与工程管理及其他应用定向增发影响因素的主成分分析基于主成分分析方法探讨区域循环经济评价研究基于主成分分析法的城市建设投资及其评价基于主成分分析法的湖南商业地产投资环境综合评价主成分分析法在建筑企业评价中的应用城镇化动力因素的主成分分析基于人工神经网络与主成分分析的建筑工料工日估算方法基于主成分分析的住宅项目

多元统计分析——主成分分析法

多元统计分析——主成分分析法
ai12+ai22+ … +aip2=1 (3)方差递降
Var(C1)≥Var(C2)≥…≥Var(Cp) (4)主成分的方差之和等于原变量的方差之和
Var(C1)+Var(C2)+ … +Var(Cp) =
2021信/10/1息0 总量不增不V减ar(x1)+Var(x2)+ … +Var(xp)=p
Y2
0.513225 0.203116 -0.182858 0.193618 0.217290 0.113642 -0.164527 -0.114637 -0.509240 -0.025832 0.083471 0.132592 0.105402 0.199407 -0.181330 -0.261367 -0.295756
2021/10/10
5
E.g.Hotelling(1939)用两个主成分 反映入学考试成绩:
文科能力
数理能力
预备知识:
❖ 方差为零的变量不能区分总体中的个体 成员;
❖ 可以用一个变量的方差来度量其所传递
的信息量。
2021/10/10
6
主成分分析的基本概念
一个假设的例子:N=100
均数 方差 标准差
C 2 a 2 1 x 1 a 2 2 x 2 ... a 2 6 x 6
VarC2 最大
限定 a 2 2 1 a 2 2 2 a 2 2 3 a 2 2 4 a 2 2 5 a 2 2 6 1 (3)找第3个最佳的综合变量
C3 C1,C2 C 3 a 3 1 x 1 a 3 2 x 2 ... a 3 6 x 6
Var C1 最大
我们关心的是 a11,a12,...,a16之间的比值 a11:a12:...:a16
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(2) 选择几个主成分。主成分分析的目的是简 化变量,一般情况下主成分的个数应该小于原始变 量的个数。关于保留几个主成分,应该权衡主成分 个数和保留的信息。
(3) 如何解释主成分所包含的经济意义。
§2 数学模型与几何解释
假设我们所讨论的实际问题中,有p个指标,我们把 这p个指标看作p个随机变量,记为X1,X2,…,Xp,主成 分分析就是要把这p个指标的问题,转变为讨论p个指标 的线性组合的问题,而这些新的指标F1,F2,…, Fk(k≤p),按照保留主要信息量的原则充分反映原指标 的信息,并且相互无关。这种由讨论多个指标降为少数 几个综合指标的过程在数学上就叫做降维。主成分分析 通常的做法是,寻求原指标的线性组合Fi。
•• •

• • •• •
•• • •


•• •
•• •
•• • • • • •

•• •



• ••
• • ••

•• • •

•• •
•• •

x1


••
• •

上面的四张图中,哪一种有更高的精度? 原始变量的信息损失最少?
如果我们将xl 轴和x2轴先平移,再同时按 逆时针方向旋转角度,得到新坐标轴yl和y2。 yl和y2是两个新变量。根据旋转变换公式:
F1
F2
F3
i
i
t
F1
1
F2
0
1
F3
0
0
1
i 0.995 -0.041 0.057
l
Δi -0.056 0.948 -0.124 -0.102 l
t -0.369 -0.282 -0.836 -0.414 -0.112 1
主成分分析是把各变量之间互相关联的复杂关系进 行简化分析的方法。在社会经济的研究中,为了全面系 统分析和研究问题,必须考虑许多经济指标,这些指标 能从不同的侧面反映我们所研究的对象的特征,但在某 种程度上存在信息的重叠,具有一定的相关性。主成分 分析试图在力保数据信息丢失最少的原则下,对这种多 变量的截面数据表进行最佳综合简化,也就是说,对高 维变量空间进行降维处理。
解 释
•••
平移、旋转坐标轴
x2
F1
主 成 分 分 析 的 几 何 解 释
F2 ••••
•••••
••
••••••
••••
••••
••••••
•••

x1
平移、旋转坐标轴 x2
F1
主 成 分 分 析 的 几 何 解
F
2

• •• •
• •
•••
•••
• •• •••••••••••••••• ••••
何意义。 设有n个样品,每个样品有两个观测变量
xl和x2,在由变量xl和x2 所确定的二维平面中,n个 样本点所散布的情况如椭圆状。由图可以看出这n
个样本点无论是沿着xl 轴方向或x2轴方向都具有较 大的离散性,其离散的程度可以分别用观测变量xl 的方差和x2 的方差定量地表示。显然,如果只考 虑xl和x2 中的任何一个,那么包含在原始数据中的 经济信息将会有较大的损失。
平移、旋转坐标轴
x2
F1
主 成
F2
•• • • •
分 分 析 的 几 何
•• • •
•• •

• •
•••



• •••
• •• •
•• •
• ••
x1

••

平移、旋转坐标轴
x2
F1
主 成 分 分 析 的 几 何
F2

•••
•••
• •

•••••••••••Βιβλιοθήκη •••••••••••• •
x1
很显然,识辨系统在一个低维空间要比在一个高维 空间容易得多。
在力求数据信息丢失最少的原则下,对高维的变 量空间降维,即研究指标体系的少数几个线性组合, 并且这几个线性组合所构成的综合指标将尽可能多 地保留原来指标变异方面的信息。这些综合指标就 称为主成分。要讨论的问题是:
(1) 基于相关系数矩阵还是基于协方差矩阵做 主成分分析。当分析中所选择的经济变量具有不同 的量纲,变量水平差异很大,应该选择基于相关系 数矩阵的主成分分析。
假定条件:以方差的大小来衡量变量的重 要性,或者信息的多少。
F1 u11X1 u21X 2 u p1X p F2 u12 X1 u22 X 2 u p2 X p
Fp u1p X1 u2 p X 2 u pp X p
满足如下的条件:
每个主成分的系数平方和为1,保证唯一性。即
u2 1i

u2 2i



u
2 pi
1
主成分之间相互无关,无重叠的信息。即
Cov(F,F) 0,i j,i,j 1, 2, ,p
i
j
主成分的方差依次递减,重要性依次递减,即
Var(F1) Var(F2 ) Var(Fp )
为了方便,我们在二维空间中讨论主成分的几
旋转变换的目的是为了使得n个样品点在yl轴方向
上的离 散程度最大,即yl的方差最大。变量yl代表了原 始数据的绝大 部分信息,在研究某经济问题时,即使
不考虑变量y2也无损大局。经过上述旋转变换原始数 据的大部分信息集中到Yl轴上,对数据中包含的信息 起到了浓缩作用。Yl,Y2除了可以对包含在Xl,X2中 的信息起着浓缩作用之外,还具有不相关的性质,这
第六章 主成分分析
主成分分析要求: 1、主成分假定条件? 2、主成分的方差与原始变量方差有何关系? 3、主成分如何求解?主成分分析的结构,即
系数和方差在数学上的含义? 4、主成分分析如何评价? 5、主成分分析的应用。
§1 基本思想
一项十分著名的工作是美国的统计学家斯通 (stone)在1947年关于国民经济的研究。他曾利用美 国1929一1938年各年的数据,得到了17个反映国民 收入与支出的变量要素,例如雇主补贴、消费资料 和生产资料、纯公共支出、净增库存、股息、利息 外贸平衡等等。在进行主成分分析后,竟以97.4% 的精度,用三新变量就取代了原17个变量。根据经 济学知识,斯通给这三个新变量分别命名为总收入 F1、总收入变化率F2和经济发展或衰退的趋势F3。 更有意思的是,这三个变量其实都是可以直接测量 的。斯通将他得到的主成分与实际测量的总收入I、 总收入变化率I以及时间t因素做相关分析,得到下 表.
根据旋转变换的公式:

y1 y2

x1 cos x2 sin x1 sin x2 cos

y1 cos sin x1 Ux y2 sin cos x2
U为旋转变换矩阵,它是正交矩阵,即有
U U1,UU I
相关文档
最新文档