高级实验设计—主成分分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
系数lij的确定原则: ①zi与zj(i≠j;i,j=1,2,…,m)相互无关; ②z1是x1,x2,…,xP的一切线性组合中方差最大者;zm是与z1 ,z2,……,zm-1都不相关的x1,x2,…xP , 的所有线性组 合中方差最大者。
新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…,
主成分得分:新变量的数值 主成分轴(载荷轴,载荷向量):
原始数据前的加权系数决定了新的综合变量主成分 (得分)的大小和性质,通常称为主成分轴或者载荷
向量
7. 主成分的求解步骤 i)对原始数据矩阵进行标准化处理
相当于对原始变量进行坐标平移与尺度伸缩:
X n p
x11 x12 x x22 21 xn1 xn 2
差;
☆ 如果原来有p个变量,则最多可以选取p个主成分,这p个主成分 的变化可以完全反映原来全部p个变量的变化; ☆ 如果选取的主成分少于p个,则这些主成分的变化应尽可能多地 反映原来全部p个变量的变化。
6. PCA中的几个概念
特征值:表示新变量(主成分)方差的大小。特征值
z1 l11x1 l12 x2 l1 p x p 大于1.0的因子数定为主成分数。 z 2 l21x1 l22 x2 l2 p x p ............ z l x l x l x mp p m m1 1 m 2 2
Principal Component Analysis (PCA)
主讲:田慧
实例:
下表为沿海10个省市的经济数据,试综合评价各省市经济竞争力。
地区 辽宁 山东 河北 天津 江苏 上海 浙江 福建 广东 广西 GDP 5458.2 10550 6076.6 2022.6 10636 5408.8 7670 4682 11770 2437.2 人均 GDP 13000 11643 9047 22068 14397 40627 16570 13510 15030 5062 农业增 加值 14883.3 1390 950.2 83.9 1122.6 86.2 680.0 663.0 1023.9 591.4 工业增 加值 1376.2 3502.5 1406.7 822.8 3536.3 2196.2 2356.5 1047.1 4224.6 367.0 第三产 业增加 值 2258.4 3851.0 2092.6 960.0 3967.2 2755.8 3065 1859.0 4793.6 995.7 固定资 产投资 1315.9 2288.7 1161.6 703.7 2320.0 1970.2 2296.6 964.5 3022.9 542.2 基本建 设投资 529.0 1070.7 597.1 361.9 1141.3 779.3 1180.6 397.9 1275.5 352.7 社会消 费品零 售总额 2258.4 3181.9 1968.3 941.4 3215.8 2035.2 2877.5 1663.3 5013.6 1025.5 海关出 口总额 123.7 211.1 45.9 115.7 384.7 320.5 294.2 173.7 1843.7 15.1 地方财 政收入 399.7 610.2 302.3 171.8 643.7 709.0 566.9 272.9 1202.0 186.7
各变量权重(L)
各主成分得分:
各主成分得分排名:
地方 辽宁 山东 河北 天津 江苏 上海 浙江 主成分1 6 3 7 9 2 5 4 8 1 10 主成分2 1 2 4 9 5 6 8 7 6 3 综合得分 5 3 7 10 2 6 4 8 1 9
主成分得分: =权重系数*标准化的原变量的和
福建 广东 广西
思路:
第一个线性组合(第一个综合指标)
设F1=a1×语文+a2 ×数学+a3 ×英语+a4 ×政治+a5 ×化学+a6 ×物理+a7 ×地理+a8 ×生物
确定权重系数的过程就可以看作是主成分分析的过程,得 到的加权成绩总和就相当于新的综合变量——主成分
4. 主成分分析的数学模型
假定有n个样本,每个样本共有p个变量,构成一个n×p阶的数 据矩阵:
xP的第1,第2,…,第m主成分。 主成分分析的实质就是确定原来变量xj(j=1,2 ,…, p) 在诸主成分zi(i=1,2,…,m)上的荷载 lij( i=1,2,… ,m; j=1,2 ,…,p)。
5. 主成分的特点
☆ 主成分是原变量的线性组合; ☆ 各个主成分之间互不相关; ☆ 主成分按照方差从大到小依次排列,第一主成分对应最大的方
一、什么是主成分分析?
1. 概念 主成分分析(PCA)是把原来多个具有一定相
关性的变量划为少数几个综合指标的一种统计
分析方法。从数学角度来看,这是一种降维处
理技术。
2. 主成分分析的基本思路 主成分分析是设法将原来众多具有一定相关性
(比如 P 个指标),重新组合成一组新的互相无
关的综合指标来代替原来的指标。通常数学上的
x1 p x2 p xnp
ii)求协方差矩阵Z
iii)特征分解
相当于将原来的坐标轴进行旋转得到新的坐标
Z UU
t
轴U:

—Z的特征值组成的对角阵
U—Z的特征向量按列组成的正交阵,它构成
了新的矢量空间,作为新变量(主成分)的坐
标轴,又称为载荷轴。
综合得分=0.72205*FAC1_1+0.12346*FAC2_1
(2)结果阅读
Leabharlann Baidu初始因子载荷矩阵
表示主成分与对应变量 的相关系数
(2)结果阅读
PCA图
横轴:主成分1,解释量? 纵轴:主成分2,解释量? 每个指标在图中的位置?
(2)结果阅读
得分矩阵
Component Score Coefficient Matrix Component 1 2 X1 .131 .158 X2 .015 -.667 X3 -.015 .548 X4 .135 -.004 X5 .137 .056 X6 .136 -.055 X7 .131 -.020 X8 .135 .142 X9 .111 -.041 X10 .132 -.104 Extraction Method: Principal Component Analysis. Component Scores.

把指标数据选入Variables 框,Descriptives: Correlation Matrix 框组中
选中Coefficients,然后点击Continue, 返回Factor Analysis 对话框,单 击OK。
(2)结果阅读
相关系数矩阵
(2)结果阅读
主成分提取分析表
特征值,解释量,累积贡献率
* 保留那些与一个以上变量有重大关系的因子。
v) 求主成分得分-新的变量值
z11 z 21 Z z n1
z12 z1m z 22 z 2 m z n 2 z nm
8. 使用SPSS进行PCA分析
(1)主要步骤
指标数据收集与录入 数据的标准化:Analyze-Descriptive statistics-Descriptives,在弹出的对
x11 x 21 X x n1
x12 x1 p x22 x2 p xn 2 xnp
记原变量指标为x1,x2,…,xp,设它们降维处理后的综 合指标,即新变量为 z1,z2,z3,… ,zm(m≤p),则
z1 l11x1 l12 x2 l1 p x p z 2 l21x1 l22 x2 l2 p x p ............ z l x l x l x mp p m m1 1 m 2 2
iv) 确定主成分个数
(1)根据累积贡献率
m 1 2 m /(1 2 p )
当 m 大于某个阈值时,可认为主成分数目为m。
(2)根据其它准则
* 特征值大于1.0的因子数定为主成分数。 * 利用特征值与因子数目的曲线,到某一因子数后,特征值
减小幅度变化不大,此转折点的因子数即为主成分数m。
话框中把需要标准化的变量选进Variable去,在Save standardized values as vaiables前面打钩。(SPSS默认首先进行标准化,因此不用提 前进行标准化)
Analyze→Data Reduction →Factor Analysis,弹出Factor Analysis 对话
处理就是将原来 P 个指标作线性组合,作为新的
综合指标。
3. 主成分分析的目的
压缩变量个数,用较少的变量去解释原始数据中的大 部分变量,剔除冗余信息。即将许多相关性很高的变
量转化成个数较少、能解释大部分原始数据方差且彼
此互相独立的几个新变量,也就是所谓的主成分。
实例:
学生期末考试科目包括语文,数学,英语,政治,化学, 物理,地理,生物等8门课程,如何综合评价不同学生 的知识能力?
相关文档
最新文档