spss主成分分析CA

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
D(Xi )
zf
31
数据标准化后,总体的协方差矩阵与总体的相关系数相等.
coX v i*,(X* j)E(Xi*E(Xi*))X (* j E(X* j))E(Xi*(X* j))
ij
coX v i*,(X* j) c D (Xi*) D (X* j)
oX v i*,(X* j)
1
1
2
1 p
zf
11
❖ 如果我们将xl 轴和x2轴先平移,再同时按逆 时针方向旋转角度,得到新坐标轴Fl和F2,Fl 和F2是两个新变量,
zf
12
x2
平移、旋转坐标轴
F1
F2
•• • • •
•• • •
•• •

• •

• •



• •••
• •• •
•• •
• ••
x 1
••
zf
13
平移、旋转坐标轴
x 2
zf
36
三、主成分性质
1,主成分的协方差阵为对角阵
2、P个随机变量的总方差为协方差矩阵的所有特征根之和
p
i1Var(Fi )
12 p1 12 2 pp
说明主成分分析把P个随机变量的总方差分解成为P个不相关的 随机变量的方差之和,
当进行相关系数矩阵求解主成分,各变量标准化后,则p个主成分
zf
35
从相关系数矩阵出发求解主成分的步骤:
1、标准化各观测变量数据,
2、求解标准化各观测变量的相关系数矩阵,
2、根据矩阵知识 I求解0 相关系数矩阵的特征根,
3、求解各特征根对应的特征向量, ui iui
其中最大特征根的特征向量对应第一主成分的系数向量; 第二大特征根对应的特征向量是第二大主成分的系 数向量·····
zf
5
❖ 主成分分析得到的主成分与原始变量之间的关 系: 1、主成分保留了原始变量绝大多数信息,
2、主成分的个数大大少于原始变量的数目,
3、各个主成分之间互不相关,
4、每个主成分都是原始变量的线性组合,
zf
6
❖ 主成分分析的运用: 1、对一组内部相关的变量作简化的描述
2、用来削减回归分析或群集分析 Cluster 中 变量的数目
2、得由特X的征协根方差阵Σx,求出其特征,根,即解方程
,可
3、求解I 0可得各特征根对 应1 的特2 征 向 量p 0
U1,U2,…ui ,Upi,ui
其中最大特征根的特征向量对应第一主成分的系数向量;
第二大特征根对应的特征向量是第二大主成分的系数向
量·····
F i U i X , i 1 , 2 , , k ( k p )
zf
38
covY( ) covU ( X) Ucov(X)U USU
1
2
...
p
若X已标准化,则可用相关矩阵代替协方差矩阵
UR U
UUR UU
RUU
r11 r12 ... r1pu11 u12 ... u1p u11 u12 ... u1p1
zf
17
❖ Fl,F2除了可以对包含在Xl,X2中的信息起着浓缩 作用之外,还具有不相关的性质,这就使得在研究 复杂的问题时避免了信息重叠所带来的虚假性, 二维平面上的个点的方差大部分都归结在Fl轴 上,而F2轴上的方差很小,Fl和F2称为原始变量x1 和x2的综合变量,F简化了系统结构,抓住了主要 矛盾,
F1
F2

•••
•••
• •

•••••••••••••••••••••••
• •
x1
•••
zf
14
平移、旋转坐标轴
x 2
F1
F
2

••••••••
••
••••••••••
••••
•••••••••

x 1
zf
15
❖ 根据旋转变换的公式:
yy12x1xc1soisnx2xs2cinos
y y1 2 cso in sc sio n sx x1 2 U x
zf
8
❖ 这种由讨论多个指标降为少数几个综合指 标的过程在数学上就叫做降维,主成分分
析通常的做法是,寻求原指标的线性组合Fi,
F1 u11X1 u21X2 up1Xp F2 u12X1 u22X2 up2Xp
Fp u1p X1 u2p X2 uppXp
zf
9
❖ 满足如下的条件:
1、每个主成分的系数平方和为1,即
u1 2 iu2 2i u2 pi1
2、主成分之间相互独立,即无重叠的信息,即
C ( F i , F o j ) 0 , v i j , i , j 1 , 2 , , p
3、主成分的方差依次递减,重要性依次递减,即
V ( F a ) V r( F a ) r V ( F a ) r
1
12
1
2p
1p
2
p
1
zf
32
例:企业经济效益综合分析,用5个经济指标 进行考核,用相关系数矩阵法求解主成分,其 中计算出的相关系数矩阵为:
1
0.4532 1
0.75360.4545 1
0.3475 0.4244 0.3668 1
0.5621 0.7316 0.41680.499 1
总的方差之和等于p,
p
i1Var(Fi )
12 p1 12 2 pp
zf
37
5.4 样本主成分求解
变量X
x11 x12 x1p
X
x21
Hale Waihona Puke x22 x2p
x
p1
xp2
x
pp
样本协方差为总体协方差的无偏估计
S 1 n n1k1
xk
ixi
xkjxj
相关矩阵R为总体相关矩阵的估计
zf
23
二 第二主成分
coF 1,v F 2)(0 F 2 u 1X 2 1 u p 2 X p
F 2 u 1 X 2 1 u 2 X 2 2 u p 2 X p
在约束条件 下,寻找第二主成分
zf
24
例:设 x(x1,x2,x3)' 的协方差矩阵为:
1 2 0
2
5
0
0 0 2
0.000
zf
26
3 主成分:
F 10 .38 x 1 3 0 .92 x 24
F2 x3 F 30.92x1 40.38x23
4 各主成分的贡献率及累计贡献率: 第一主成分贡献率: 5.8/35 (.8 320.1)7 0.72875 第二主成分贡献率: 2/5 (.8 3 20.1)7 0.25 第三主成分贡献率:0.1/75 (.8 320.1)7 0.02125
zf
18
❖ 由此可概括出主成分分析的几何意义:
主成分分析的过程也就是坐标旋转的过程,各主成 分表达式就是新坐标系与原坐标系的转换关系, 新坐标系中各坐标轴的方向就是原始数据方差 最大的方向,
zf
19
❖ 了解了主成分分析的基本思想、数学和几何意义后,问 题的关键:
1、如何进行主成分分析 主成分分析的方法 基于相关系数矩阵还是基于协方差矩阵做主成分分析,当
2
p
F1、F2….Fp分别称为原变量的第一、第二….第p个主成分,
zf
10
5.2 数学模型与几何解释-几何解释
❖ 为了方便,我们在二维空间中讨论主成分的几何 意义: 设有n个样品,每个样品有两个观测变量xl和x2,在 由变量xl和x2 所确定的二维平面中,n个样本点 所散布的情况如椭圆状,由图可以看出这n个样 本点无论是沿着xl 轴方向或x2轴方向都具有较 大的离散性,其离散的程度可以分别用观测变量 xl 的方差和x2 的方差定量地表示,显然,如果只考 虑xl和x2 中的任何一个,那么包含在原始数据中 的经济信息将会有较大的损失,
1和对2 应的特征向量为:
u 1 0 . 50 . 0 5 1 0 0 . 43 0 . 7 00 0 . 7 5 4 20
u 2 0 . 30 . 4 20 8 . 8 30 5 . 8 70 8 . 4 3 4 05
zf
34
4 建立第一和第二主成分:
F 1 0 .5x 1 * 0 0 .5 1 x 2 * 0 0 .4 3 x 3 * 7 0 .0 0 x 4 * 7 0 .5 4 x 5 * 20 F 2 0 .3x 1 * 4 0 .2 8 x 2 * 8 0 .3 5 x 3 * 8 0 .7 8 x 4 * 4 0 .3 4 x 5 * 05
分析中所选择的变量具有不同的量纲,变量水平差异很 大,应该选择基于相关系数矩阵的主成分分析, 2、如何确定主成分个数 主成分分析的目的是简化变量,一般情况下主成分的个数 应该小于原始变量的个数,关于保留几个主成分,应该权 衡主成分个数和保留的信息,
zf
20
5.3 总体主成分的求解及其性质
❖ 主成分分析的目标:
P1
22
P2
2P
PP
Σx为非负定的对称阵
zf
22
1, 2,…, p为Σx的特征根,不妨假设1 2 … p ,而U恰好是由特征根相对应的特征向量所 组成的正交阵,
u11 u12 u1p
U(u1,,up)u21
u22
u2p
up1 up2 upp
U iu 1 i, u2i, , upi i1,2, ,P
zf
7
二、数学模型与几何解释-数学模型
❖ 假设我们所讨论的实际问题中,有p个指标,我们 把这p个指标看作p个随机变量,记为X1,X2,…,Xp, 主成分分析就是要把这p个指标的问题,转变为 讨论p个指标的线性组合的问题,而这些新的指 标F1,F2,…,Fk k≤p ,按照保留主要信息量的原则 充分反映原指标的信息,并且相互独立,
U为旋转变换正 矩交 阵矩 ,阵 它, 是即有 U U 1,U U I
zf
16
❖ 旋转变换的目的:为了使得n个样品点在Fl 轴方向上的离散程度最大,即Fl的方差最大,
❖ 变量Fl代表了原始数据的绝大部分信息,在研 究某问题时,即使不考虑变量F2也无损大局 , 经过上述旋转变换原始数据的大部分信息集 中到Fl轴上,对数据中包含的信息起到了浓缩 作用,
zf
27
第一和第二主成分的累计贡献率:
(5 .8 3 2 )/5 (.8 3 2 0 .1)7 0 .97875
由此可将以前三元的问题降维为两维问题.第一和第 二主成分包含了以前变量的绝大部分信息97.87 5%.
zf
28
从协方差矩阵出发求解主成分的步骤:
1、求解各观测变量 X l x 1 l , x 2 l , , x p( l 的l 协1 , 2 方, 差, 矩n ) 阵,
zf
3
❖ 在进行主成分分析后,竟以97.4%的精度,用 三新变量就取代了原17个变量,根据经济学 知识,斯通给这三个新变量分别命名为总收入 F1、总收入变化率F2和经济发展或衰退的趋 势F3,
zf
4
❖ 主成分分析:将原来较多的指标简化为少数 几个新的综合指标的多元统计方法,
❖ 主成分:由原始指标综合形成的几个新指标, 依据主成分所含信息量的大小成为第一主成 分,第二主成分等等,
zf
29
4、计算累积贡献率,给出恰当的主成分个数,
zf
30
❖ 二、由相关矩阵求解主成分
当分析中所选择的变量具有不同的量纲,变量水平差异很 大,应该选择基于相关系数矩阵的主成分分析, 量纲对于主成分分析的影响及消除方法——对数据进行 标准化处理,以使每一个变量的均值为0,方差为1,
Xi*
Xi
EXi
从协方差矩阵出发,求解主成分. 1 求协方差矩阵的特征根 依据 I 0 求解.
zf
25
12 0 I2 50 (1)5()2 ()( 2) (2)2 ()0
0 0 2
2 2 1 5 .83 3 0 .17
2 求特征根对应的特征向量
0
0.383
u10 u20.924
1
0.000
0.924 u30.383
zf
33
1 计算其特征值:
1 2 . 69 2 1 . 7 51 3 0 . 3 94 3 0 . 2 10 5 0 . 0 649
2 各特征值的累计方差贡献率为:
j
k/p 0.530.9 880.3 940.9 991.0 000
k 1
3 从以上方差贡献率看,k=2时主成分个数较为合适,
1、从相关的X1, X2,… Xk,求出相互独立的新综合变量 主 成分 Y1,Y2…Yk,
2、X与Y之间的计算关系是:
Y1 a11 a1kX1
即Y=AX
Yk ak1 akkXk
如何求解主成分
zf
21
❖ 一、从协方差矩阵出发求解主成分
一 第一主成分:
11 12 1P
设X的协方差阵为
X
21
主成分分析
zf
主成分分析的重点
❖ 1、掌握什么是主成分分析 ❖ 2、理解主成分分析的基本思想和几何意义 ❖ 3、理解主成分求解方法:协方差矩阵与相
关系数矩阵的差异 ❖ 4、对结果进行正确分析
zf
2
5.1 主成分分析的基本思想
一项十分著名的工作是美国的统计学家斯通 stone 在1947年关于国民经济的研究,他曾 利用美国1929一1938年各年的数据,得到了 17个反映国民收入与支出的变量要素,例如 雇主补贴、消费资料和生产资料、纯公共支 出、净增库存、股息、利息外贸平衡等等,
相关文档
最新文档