第一讲 主成分分析分析
主成分分析课件
2019/11/12
6
目录 上页 下页 返回 结束
§1.2 主成分分析的基本理论
设对某一事物的研究涉及个 p指标,分别用 X1,X2, ,XP 表 示,这个 p指标构成的 p维随机向量为 X(X1,X2, ,Xp)。' 设随
机向量X的均值为 μ,协方差矩阵为 Σ。
对 X进行线性变换,可以形成新的综合变量,用 Y表示, 也就是说,新的综合变量可以由原来的变量线性表示,即满 足下式:
§2 主成分分析的几何意义
设有 N个样品,每个样品有两个观测变量 X1, X2 ,这样, 在由变量X1, X2 组成的坐标空间中,N个样品点散布的情况如 带状,见图5-1。
2019/11/12
图5-1
12
目录 上页 下页 返回 结束
§2 主成分分析的几何意义
由图可以看出这N个样品无论沿 X 1 轴方向还是沿 X 2 轴方向均 有较大的离散性,其离散程度可以分别用观测变量X 1 的方差和 X 2 的方差定量地表示,显然,若只考虑 X 1 和 X 2中的任何一个,原 始数据中的信息均会有较大的损失。我们的目的是考虑 X 1 和 X 2 的线性组合,使得原始样品数据可以由新的变量 Y 1 和Y2 来刻画。
在几何上表示就是将坐标轴按逆时针方向旋转角度,得到新坐
标轴 Y 1 和Y 2 ,坐标旋转公式如下:
YY12
X1cosX2sin X1sinX2cos
2019/11/12
13
目录 上页 下页 返回 结束
§2 主成分分析的几何意义
其矩阵形式为: Y Y1 2 csoisn cso insX X1 2UX
征向量.
P(1,2)
则
P为正交阵,Λ
主成分分析法(1)【可编辑全文】
Fp
Cov(xi , Fj ) Cov(ui1F1 ui2F2 L uipFp , Fj ) uijj
(
xi
,
Fj
)
uij j i
j
uij j i
可见,xi 和 Fj 的相关的密切程度取决于对 应线性组合系数的大小。
五、原始变量被主成分的提取率
前面我们讨论了主成分的贡献率和累计贡献率,他度 量 了 F1 , F2 , …… , Fm 分 别 从 原 始 变 量 X1 , X2,……XP中提取了多少信息。那么X1,X2,……XP 各有多少信息分别F1,F2,……,Fm被提取了。应该用 什 么 指 标 来 度 量 ? 我 们 考 虑 到 当 讨 论 F1 分 别 与 X1 , X2 , ……XP 的 关 系 时 , 可 以 讨 论 F1 分 别 与 X1 , X2,……XP的相关系数,但是由于相关系数有正有负, 所以只有考虑相关系数的平方。
F1
F2
F3
i
i
t
F1
1
F2
0
1
F3
0
0
1
i 0.995 -0.041 0.057
l
Δi -0.056 0.948 -0.124 -0.102 l
t -0.369 -0.282 -0.836 -0.414 -0.112 1
主成分分析是把各变量之间互相关联的复杂 关系进行简化分析的方法。
在社会经济的研究中,为了全面系统的分析 和研究问题,必须考虑许多经济指标,这些指标 能从不同的侧面反映我们所研究的对象的特征, 但在某种程度上存在信息的重叠,具有一定的相 关性。
i
m
j
u2 ij
/
2 i
m
主成分分析法PPT课件
6
3.832E-16
2.017E-15 100.000
7
3.351E-16
1.764E-15 100.000
8
2.595E-16
1.366E-15 100.000
000
10
1.683E-16
8.860E-16 100.000
11
7.026E-17
3.698E-16 100.000
• 因子分析是要利用少数几个公共因子去解释较多个要观测 变量中存在的复杂关系,它不是对原始变量的重新组合,而 是对原始变量进行分解,分解为公共因子与特殊因子两部分. 公共因子是由所有变量共同具有的少数几个因子;特殊因 子是每个原始变量独自具有的因子.
3、应用中的优缺点比较
• 主成分分析 优点:首先它利用降维技术用少数几个综合变量来代替 原始多个变量,这些综合变量集中了原始变量的大部分信 息.其次它通过计算综合主成分函数得分,对客观经济现象 进行科学评价.再次它在应用上侧重于信息贡献影响力综 合评价. 缺点:当主成分的因子负荷的符号有正有负时,综合评价 函数意义就不明确.命名清晰性低.
12
2.750E-19
1.447E-18 100.000
13
-7.503E-17 -3.949E-16 100.000
14
-1.291E-16 -6.794E-16 100.000
15
-1.742E-16 -9.168E-16 100.000
16
-2.417E-16 -1.272E-15 100.000
四、主成分分析法的步骤
1数据归一化处理:数据标准化Z 2计算相关系数矩阵R: 3计算特征值;
特征值越大说明重要程度越大.
4计算主成分贡献率及方差的累计贡献率; 5计算主成分载荷与特征向量:
《主成分分析》课件
投资组合优化
通过主成分分析,找到不同投 资标的之间的关系,优化投资 组合的效益。
主成分分析在市场调研中的应用
1
偏好分析
通过主成分分析,找到消费者的特征
产品定位
2
和偏好,精准制定相应的市场策略。
通过主成分分析,找到消费者对产品
的不同评价因素,合理确定产品的定
位。
3
竞品分析
通过主成分分析,评估竞争对手的优 势和劣势,为企业提供相应的决策依 据。
慕课在线学习行业民调
通过主成分分析,找到影响学 习者的因素,比如课程质量、 师资水平、学习难度等方面。
降水量分析和气候变化
通过主成分分析和时间序列分 析,找到影响气象预测和气候 变化的主要原因和特征。
食品市场调查分析
通过主成分分析,找到影响消 费者购买健康食品的因素,制 定相应的市场营销策略。
标准化数据
通过Z-score标准化数据,去除不同变 量的量纲影响。
提取主成分
根据协方差矩阵的特征值和特征向量, 提取主成分。
如何选择主成分数量
特征值
根据特征值大于1的原则,选择主成分的数量。
累计贡献率
当累计贡献率到达一定阈值后,选择主成分数量。
图形分析
通过屏幕图和贡献率图来选择主成分数量。
主成分分析的优点和缺点
应用
主成分分析适用于变量之间没有明确因果关系 的情况下,提取它们的主成分;而因子分析需 要基于理论或先验知识,对变量进行选择和定 量,发现变量间的潜在因子。
主成分分析在金融分析中的应用
股票指数分析
通过主成分分析,找到影响整 个股票市场的因素,快速判断 股票市场的健康状况。
信用卡违约风险评估
通过主成分分析,找到导致信 用卡违约的因素,提高信用卡 贷款的质量。
主成分分析课件ppt课件
•§1 主成分分析的基本思想与理论 •§2 主成分分析的几何意义 •§3 总体主成分及其性质 •§4 样本主成分的导出 •§5 有关问题的讨论 •§6 主成分分析步骤及框图 •§7 主成分分析的上机实现
2020/5/28
11
主成分分析
主成分分析(principal components analysis)也称主分量 分析,是由霍特林(Hotelling)于1933年首先提出的。主成 分分析是利用降维的思想,在损失很少信息的前提下把多个 指标转化为几个综合指标的多元统计方法。通常把转化生成 的综合指标称之为主成分,其中每个主成分都是原始变量的 线性组合,且各个主成分之间互不相关,这就使得主成分比 原始变量具有某些更优越的性能。这样在研究复杂问题时就 可以只考虑少数几个主成分而不至于损失太多信息,从而更 容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时 使问题得到简化,提高分析效率。本章主要介绍主成分分析 的基本理论和方法、主成分分析的计算步骤及主成分分析的 上机实现。
2020/5/28
1100
目录 上页 下页 返回 结束
§2 主成分分析的几何意义
由第一节的介绍我们知道,在处理涉及多个指标问题的时 候,为了提高分析的效率,可以不直接对 p个指标构成的 p维 随机向量X (X1, X 2 , , X p )'进行分析,而是先对向量 X 进行线
性变换,形成少数几个新的综合变量Y1,Y2, ,YP ,使得各综
2020/5/28
99
目录 上页 下页 返回 结束
§1.2 主成分分析的基本理论
基于以上三条原则决定的综合变量 Y1,Y2, ,YP 分
别称为原始变量的第一、第二、…、第p 个主成分。
主成分分析完整版
主成分分析完整版一、主成分分析的原理1.标准化数据:先对原始数据进行标准化处理,以确保不同变量的尺度一致。
2.计算协方差矩阵:对标准化后的数据计算协方差矩阵,矩阵中的元素表示不同变量之间的相关性。
3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。
4.选择主成分:按照特征值的大小选择最重要的k个特征值和它们对应的特征向量,称之为主成分。
5.数据转换:将原始数据投影到选取的主成分上,得到降维后的数据。
二、主成分分析的方法1.方差解释比:主成分分析通过特征值展示了每个主成分的重要性。
方差解释比是计算每个主成分的方差所占总方差的比例。
选择解释总方差的比例较高的主成分,可以保留更多的信息。
2.累计方差解释比:累计方差解释比是计算前n个主成分的方差解释比之和。
通过选择累计方差解释比较高的主成分,可以保留更多的原始数据信息。
3.维度选择:主成分分析可以通过选择合适的主成分数来实现数据降维。
通过观察特征值的大小和累计方差解释比,可以选择合适的主成分数。
三、主成分分析的应用1.数据可视化:主成分分析可以将高维度的数据转换为低维度的数据,从而方便可视化。
通过在二维或三维空间中绘制主成分,可以更好地理解数据的分布和关系。
2.特征提取:主成分分析可以提取数据中的最重要特征,从而减少数据维度并保留主要信息。
特征提取可以在分类、聚类等问题中提高算法的效果。
3.数据压缩:主成分分析可以将高维度的数据压缩为低维度的数据,从而节省存储空间和计算时间。
压缩后的数据可以用于后续分析和处理。
4.噪音过滤:主成分分析通过保留数据中最重要的特征,可以减少噪音的影响。
通过滤波后的数据可以提高实验测量的准确性和稳定性。
综上所述,主成分分析是一种强大的数据降维技术,可以在许多领域中应用。
熟悉主成分分析的原理、方法和应用,对于理解数据和提升数据分析的能力具有重要意义。
第11章(1)主成分分析 ppt课件
x11
X
x21
xn1
x12 x1 p
x22
x2
p
xn 2
xnp
(1)
ppt课件
20
当p较大时,在p维空间中考察问题比较麻烦。 为了克服这一困难,就需要进行降维处理,即用 较少的几个综合指标代替原来较多的变量指标, 而且使这些较少的综合指标既能尽量多地反映原 来较多变量指标所反映的信息,同时它们之间又 是彼此独立的。
2 141.503 1.684 24.301 1752.35 452.26 32.314
14.464 1.455 27.066
3 100.695 1.067 65.601 1181.54 270.12 18.266
0.162
7.474 12.489
4 143.739 1.336 33.205 1436.12 354.26 17.486
k1
k1
ppt课件
(4)
25
(二)计算特征值与特征向量:
① 解特征方程 I R 0 ,常用雅可比法 (Jacobi)求出特征值,并使其按大小顺序排
列 12 ,p0;
②
分别求出对应于特征值
的特征向量
i
ei(i1 ,2, ,p),要求 e i =1,即
,
p
其中 e表i2j 示1向量 的e i第j j个分量。e i
ppt课件
23
从以上的分析可以看出,主成分分析的
实质就是确定原来变量xj(j=1,2 ,…, p) 在诸主成分zi(i=1,2,…,m)上的荷载 lij ( i=1,2,…,m; j=1,2 ,…,p)。
从数学上容易知道,从数学上可以证明,
主成分分析完整版
X的两个主成分分别为 第一主成分的贡献率为
Y1 0.040X1 0.999X2, Y2 0.999X1 0.040X2.
1 100.16 99.2% 1 2 101
R 型分析
R型分析的概念
为消除量纲影响,在计算之前先将原始数据标准化。标准
4. 由此我们可以写出三个主成分的表达式:
F1 0.56(x1 161 .2) 0.42(x2 77.3) 0.71(x3 51.2) F2 0.81(x1 161 .2) 0.33(x2 77.3) 0.48(x3 51.2) F3 0.03(x1 161 .2) 0.85(x2 77.3) 0.53(x3 51.2)
主 旋转坐标轴
x 2
F 1
成 分 分 析 的 几 何 解
F 2
•
•••
•••
• •
•
•••••••••••••••••••••••
• •
F1 x1 cos x2 sin
F2 x1 sin x2 cos
F1
F2
cos sin
sin x1
cos
x2
x2
旋转变换的目的是为了使得n个
很显然,识辨系统在一个低维空间要比在一个高维空间容 易得多。
在力求数据信息丢失最少的原则下,对高维的变量空间降 维,即研究指标体系的少数几个线性组合,并且这几个线性 组合所构成的综合指标将尽可能多地保留原来指标变异方面 的信息。这些综合指标就称为主成分。要讨论的问题是:
(1) 基于相关系数矩阵/协方差矩阵做主成分分析? (2) 选择几个主成分? (3) 如何解释主成分所包含的实际意义?
2. 求解协方差矩阵的特征方程 S I 0
第六章-主成分分析法精选全文
可编辑修改精选全文完整版第六章 主成分分析法主成分分析法是将高维空间变量指标转化为低维空间变量指标的一种统计方法。
由于评价对象往往具有多个属性指标,较多的变量对分析问题会带来一定的难度和复杂性。
然而,这些指标变量彼此之间常常又存在一定程度的相关性,这就使含在观测数据中的信息具有一定的重叠性。
正是这种指标间的相互影响和重叠,才使得变量的降维成为可能。
即在研究对象的多个变量指标中,用少数几个综合变量代替原高维变量以达到分析评价问题的目的。
当然,这少数指标应该综合原研究对象尽可能多的信息以减少信息的失真和损失,而且指标之间彼此相互独立。
第一节 引言主成分分析,也称主分量分析,由皮尔逊(Pearson )于1901年提出,后由霍特林(Hotelling )于1933年发展了,这也正是现在多元统计分析中的一种经典统计学观点。
经典统计学家认为主成分分析是确定一个多元正态分布等密度椭球面的主轴,这些主轴由样本来估计。
然而,现代越来越多的人从数据分析的角度出发,用一种不同的观点来考察主成分分析。
这时,不需要任何关于概率分布和基本统计模型的假定。
这种观点实际上是采用某种信息的概念,以某种代数或几何准则最优化技术对一个数据阵的结构进行描述和简化。
主成分分析方法的主要目的就是通过降维技术把多个变量化为少数几个主要成分进行分析的统计方法。
这些主要成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线性组合。
为了使这些主要成分所含的信息互不重迭,应要求它们互不相关。
当分析结束后,最后要对主成分做出解释。
当主成分用于回归或聚类时,就不需要对主成分做出解释。
另外,主成分还有简化变量系统的统计数字特征的作用。
对于任意p 个变量,描述它们自身及其相互关系的数字特征包括均值、方差、协方差等,共有)1(21-+p p p 个参数。
经过主成分分析后,每个新变量的均值和协方差都为零,所以,变量系统的数字特征减少了)1(21-+p p p 个。
主成分分析方法PPT课件
X
x21
x22
x2
p
xn1
xn 2
xnp
❖ 当p较大时,在p维空间中考察问题比较麻烦。 为了克服这一困难,就需要进行降维处理. 要求:较少的几个综合指标尽量多地反映原来较 多变量指标所反映的信息,同时它们之间又是彼 此独立的
例,成绩数据
❖ 100个学生的数学、物理、化学、语文、历 史、英语的成绩如下表(部分)。
p
lk2j 1, (k 1,2,, m)
j 1
Rlk lk (R E)lk 0
计算主成分贡献率及累计贡献率
▲贡献率:
k
p
i
(k 1,2,, p)
i 1
▲累计贡献率:
k
p
j1 j / i1 i
一般取累计贡献率达85—95%的特征值 1, 2 ,, m 所对应的第一、第二、…、第m(m≤p)个主成分
6
6
样方
1
物种X1 1
物种X2 5
2 3 4 5 6 总和 2 0 2 -4 -1 0 2 1 0 -4 -4 0
种X2
X2
12
10
8
6
4
2
0
0
1
2
3
4
5
6
7
种X1
6 5 4 3 2 1 0 -5 -4 -3 -2 -1-1 0 1 2 3 4 5 6 -2 -3 -4 -5
X1
中心化后的原始数据矩阵
X
1 5
2 2
0 1
2 0
4 4
1 4
❖ 把坐标轴X1、 X2刚性地旋转 一个角度,得
到图中新坐标
轴Y1和Y2
X2
6
《主成分分析法》课件
主成分分析法的目的是减少数据的维 度,同时保留数据中的主要信息,以 便更好地理解和分析数据。
历史与发展
1901年
由英国统计学家Karl Pearson提出主成分的概 念。
1933年
美国统计学家Harold Hotelling将主成分分析 法应用于心理学和教育学领域。
20世纪70年代
随着计算机技术的发展,主成分分析法在各个领域得到广泛应用。
04
主成分分析法的步骤
数据标准化
总结词
消除量纲和数量级对分析的影响
详细描述
在进行主成分分析之前,需要对数据进行标准化处理,即将各指标的均值调整为0,标准差调整为1, 以消除不同量纲和数量级对分析的影响。
计算相关系数矩阵
总结词
衡量变量间的相关性
VS
详细描述
通过计算原变量之间的相关系数矩阵,可 以了解各变量之间的相关性。相关系数矩 阵中的元素表示各指标之间的相关系数, 用于衡量变量间的线性关系。
详细描述
市场细分是主成分分析法在市场营销领域中的重要应 用。通过对市场数据进行主成分分析,可以提取出影 响市场需求的共同因素,进而将市场划分为不同的子 市场。这种分析方法有助于企业识别不同子市场的需 求特点、消费行为和竞争状况,为制定针对性的营销 策略提供依据。
实例二:客户分类
要点一
总结词
利用主成分分析法对客户进行分类,有助于企业更好地了 解客户群体特征,提高客户满意度和忠诚度。
01
数学模型
主成分分析通过线性变换将原始 变量转换为彼此独立的主成分, 这种变换是线性的。
变换矩阵
02
03
特征向量
线性变换需要一个变换矩阵,该 矩阵由原始变量和主成分之间的 系数构成。
实用统计方法――第一讲 主成分分析课件
cov(i, i) Si2
协方差矩阵
S12 cov(2,1)
Z cov(3,1)
cov( p,1)
cov(1, 2) S22
cov(3, 2)
cov( p, 2)
cov(1, 3) cov(2, 3)
统计是什么?
• 一句话, • 统计学(statistics)是用以
收集数据,分析数据和由数 据得出结论的一组概念、原 则和方法。
• 以归纳为主要思维方式的统计不是以 演绎为主的数学。
• 统计可应用于各个不同学科,在有些 学科已经有其特有的方法和特点;如
生物统计(biostatistics)、经济计量 学(econometrics)以及目前很热门 的生物信息(bioinformation)和数据 挖掘(Data Mining)的方法主体都是
从数学角度来看,这是一种降维处理技术 。
一、主成分分析的基本原理
• 假定有n个样本,每个样本共有p个变量,构成 一个n×p阶的数据矩阵
x11 x12 x1p
X
x21
x22
x2
p
xn1
xn2
xnp
当p较大时,在p维空间中考察问题比较麻烦 。为了克服这一困难,就需要进行降维处理,即 用较少的几个综合指标代替原来较多的变量指标 ,而且使这些较少的综合指标既能尽量多地反映 原来较多变量指标所反映的信息,同时它们之间 又是彼此独立的。
201001012精算农业动物学人类学考古学审计学晶体学人口统计学牙医学生态学经济计量学教育学选举预测和策划工程流行病学金融水产渔业研究遗传学地理学地质学历史研究人类遗传学水文学工业法律语言学文学劳动力计划管理科学市场营销学医学诊断气象学军事科学核材料安全管理眼科学制药学物理学政治学心理学心理物理学质量控制宗教研究社会学调查抽样分类学气象改善博彩等
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 特征向量即为主成分系数。
• 当变量较多时,特征根的计算较复杂,需借助计算机软件实 现。
一个简单例子
例1. 测得10名幼儿的身高,体重如下表,求主成分。
对象号 1 2 3 4 5 6 7 8 9 10 均数 标准差 x1 体重(kg) 16.3 13.0 18.3 15.0 11.9 14.4 13.5 12.1 13.3 13.5 14.13 1.965847 x2 身高(cm) 108 88 111 95 88 95 94 88 93 95 95.5 7.989577
旋转变换的目的是为了使得n个样品点在Cl 轴方向上的离 散程度最大,即Cl的方差最大。 变量Cl代表了原始数据的绝大 部分信息,在研 究某问题时,即使不考虑变量C2也无损大局。 经过上述旋转变换原始数据的大部分信息集中 到Cl轴上,对数据中包含的信息起到了浓缩作 用。
Cl,C2除了可以对包含在Xl,X2中的信息起着 浓缩作用之外,还具有不相关的性质,这就使得
(4) 总方差不增不减, 即 Var(C1)+Var(C2)+ … +Var(Cp) =Var(x1)+Var(x2)+ … +Var(xp) =p 这一性质说明,主成分是原变量的线性组合,是对原变 量信息的一种重组,主成分不增加总信息量,也不减少总 信息量。
(5) 主成分和原变量的相关系数 Corr(Ci,xj)=wij
Extraction Method: Principal Component Analysis.
本例考虑保留3个主成分,累积贡献 率可达90%。
• 主成分Ci表达式:
• SPSS软件不能直接给出主成分系数wij,经过FACTOR 过
程产生的是因子负荷系数,但主成分分析模型需要的不是
因子载荷量而是特征向量,所以还需将因子负荷系数输入
(7)第i个主成分对所有原变量的贡献为:
2 2 r w Ci , x j iji i j 1 j 1 p p
(8)所有主成分对原变量xj的贡献为:
2 2 h2 r w Ci , x j ij i j i 1 i 1 p p
求主成分的步骤
• 1.计算相关系数矩阵R
主成分分析
罗树生
x2
c1
x2
C1
x1
x2
x3
x1
• 主成分分析(Principal Component Analysis,PCA)是一种数据降维技术,将 多个具有较强相关性的实测变量综合成少 量综合变量。
• 一个度量指标的好坏除了可靠、真实之外 ,还必须能充分反映个体间的变异。如果 有一项指标,不同个体的取值都大同小异 ,那么该指标不能用来区分不同的个体。 由这一点来看,一项指标在个体间的变异 越大越好。因此我们把“变异大”作为“ 好”的标准来寻求综合指标。
xi xi Xi si
i=1,2,…p
我们作如下定义: (1) 若C1=w11X1+w12X2+ … +w1pXp, 且使 Var(C1)最大,则称C1为第一主成分; 但系数w若无限制可使Var(C1)无限大,故加约束条件: w112+w122+ … +w1p2=1 组合系数( w11, w12, … w1p)可看作一个向量,代表p维 空间中的一个方向,相当于全部n个个体在该方向上的一个 投影。要求Var(C1)最大就是要找一个最“好”的方向,使 得所有个体在该方向上的投影最为分散。
• 1.求相关系数矩阵R • r11=r22=1, r12=r21=0.9547
0.9547 1 R 1 0.9547
• 2.求R的特征根,解方程:
1 0.9547 0.9547 1 0
• 即(1-λ)*(1-λ)-0.9547*0.9547=0 • 得两个根 1.9547和0.0453,记为: • λ1=1.9547,λ2=0.0453
如果第一主成分不足以代表原所有p个变量,则考虑第二个 主成分: C2=w21X1+w22X2+ … +w2pXp, 要求使 Var(C2)最大; 约束条件: w212+w222+ … +w2p2=1 Cov(C1,C2)=0
Cov(C1,C2)=0即第一、第二主成分的协方差(相关系数) 为零,目的是为了使C1中已有的信息不在C2中出现。结果是 在与第一个向量垂直的所有方向中,找到一个使得所有个体在 其上的投影与在其它方向上的投影相比最为分散。
=wij
Var(Ci )
i
(6) 令X1,X2,…,Xp的相关矩阵为R, (wi1,wi2,…,wip) 则是相关矩阵R的第i个特征向量(eigenvector)。而且,特征 值i就是第i主成分的方差, 即 Var(Ci)= i 其中i为相关矩阵R的第i个特征值(eigenvalue) 1≥2≥…≥p≥0
x1
•
如果我们将xl 轴和x2轴先平移,再同时按 逆时针方向旋转角度,得到新坐标轴Cl和C2 。Cl和C2是两个新变量。
根据旋转变换的公式:
C1 x1 cos x2 sin C 2 x1 sin x2 cos
C1 cos sin C 2 sin x1 cos x2
特征向量:
Prin1 x1 x2 0.522386 0.525457 Prin2 -.195138 -.081135 Prin3 -.190578 -.166475 Prin4 -.254711 -.388958 Prin5 0.215943 0.312044 Prin6 0.735666 -.664032
主成分的数目的选取
如前所述,p个随机变量,便有p个主成分。由于总方差不 增不减,C1,C2等前几个综合变量的方差较大,而Cp,Cp-1等 后几个综合变量的方差较小。 一般来说,只有前几个综合变 量才称得上主(要)成份,后几个综合变量实为“次”(要)成份。 实践中总是保留前几个,忽略后几个。
• 保留多少个主成分主要考虑保留部分的累积方差在方差总 和中所占百分比(即累积贡献率),它标志着前几个主成分 概括信息之多寡。实践中,一般推荐达到80%的累积方差 即可。常用的判断方法有: • 1. 特征值准则:取特征值>1的主成分。是SPSS软件默认 的方法。 • 2. 累积方差比例原则:一般推荐累积方差比例达到80% 以上时,即可停止选择主成分。 • 3. 利用碎石图:将主成分按特征根从大到小排列,画出特 征根随主成分个数变化的散点图,根据图的形状来判断保 留主成分的个数。曲线开始变平的前一个点(拐点)认为 是提取的最大主成分数。也就是根据特征根的变化速率来 确定。
例2:测得某地19-22岁年龄的部分城市男生 身体形态指标:身高(x1,cm)、坐高 (x2,cm)、体重(x3,kg)、胸围(x4、 cm)、肩宽(x5,cm)、骨盆宽(x6, cm)。试进行主成分分析。
特征值、方差比例和累积贡献率
Total Variance Explained Initial Eigenvalues % of Variance Cumulative % 52.874 52.874 21.952 74.825 15.604 90.429 7.001 97.430 2.041 99.471 .529 100.000 Extraction Sums of Squared Loading s Total % of Variance Cumulative % 3.172 52.874 52.874 1.317 21.952 74.825 .936 15.604 90.429 .420 7.001 97.430 .122 2.041 99.471 .032 .529 100.000 Component 1 2 3 4 5 6 Total 3.172 1.317 .936 .420 .122 .032
在研究复杂的问题时避免了信息重叠所带来的虚
假性。二维平面上的个点的方差大部分都归结在
Cl轴上,而C2轴上的方差很小。Cl和C2称为原始
变量x1和x2的综合变量。C简化了系统结构。
主成分分析的数学模型
• 通常情况下,所分析的多个变量具有不同量纲或均数/ 方差相差很大,不适于用协方差矩阵做主成分分析, 而采用基于相关系数矩阵的主成分分析。 • 首先将原变量标准化。设有n个样本,x1,x2…xp为p个 原指标变量,经过标准化后得到标准化变量X1, X2…Xp:
Extraction Method: Principal Component Analysis. a. 6 components extracted.
C1 0.930/ 3.172X 1 0.936/ 3.172X 2 0.910/ 3.172X 3 0.617/ 3.172X 4 0.336/ 3.172X 5 0.330/ 3.172X 5 0.5224X 1 0.5255X 2 0.5111X 3 0.3465X 4 0.1884X 5 0.1850X 5
同样的方法,可以继续寻找第三、第四…主成分,至多有p 个。
(全)主成分模型
C1 w11 X 1 w12 X 2 ... w1 p X p C2 w21 X 1 w22 X 2 ... w2 p X p ... C p wp1 X 1 wp 2 X 2 ... w pp X p
数据编辑窗口,利用 “主成分相应特征根的平方根与特 征向量乘积为因子负荷系数”的性质用TRANSFORM—— COMPUTE 来计算特征向量,得到主成分的线性表达式 。
因子负荷系数转换为主成分系数(特征向量)
a Component Matrix
Component 1 x1 x2 x3 x4 x5 x6 .930 .936 .910 .617 .336 .330 2 -.224 -.093 -.208 -.053 .754 .803 3 -.184 -.161 -.101 .717 -.456 .379 4 -.165 -.252 .218 .296 .322 -.301 5 .076 .109 -.265 .121 .089 -.110 6 .131 -.118 -.018 -.002 .003 .016