医学统计学课件--主成分分析与因子分析(第20章)

合集下载

医学统计学--主成分分析及因子分析(第20章)

医学统计学--主成分分析及因子分析(第20章)

2019/1/25
医学统计学
3
一、基本思想
数据的降维、数据的解释 将原来众多具有一定相关性的指标,组 合成一组新的相互无关的综合指标。 从中选取几个较少的综合指标尽可能多 的反映原来众多指标的信息。 这种既减少了指标的数目又抓住了主要矛 盾的做法有利于问题的分析和处理。
2019/1/25 医学统计学 4

1 2 140.0 141.6 76.0 76.2 36.3 31.4 32.0 29.0 23.0 22..0 16.1 15.6 61.1 60.6 38.7 38.8 32.4 32.5 23.1 21.8 71.3 65.7 41.8 41.7 31.6 29.0 22.3 19.8 20.5医学统计学 17.5
第20章
主成分分析 与因子分析
Principal Components Analysis & Factor Analysis
第二军医大学卫生统计学教研室 张罗漫
2019/1/25 医学统计学 1
讲课内容:
第一节 主成分分析
第二节 因子分析
2019/1/25
医学统计学
2
第一节
主成分分析
Principal Components Analysis
某地 208 名 14 岁男中学生 15 项形态指标测试结果
指标、单位
身高 (X1) cm 坐高 (X2) cm 体重 (X3) kg 肩宽 (X4) cm 骨盆宽 (X5) cm 手长 (X6) cm 上肢长 (X7) cm 小腿加足高 (X8) cm 小腿长 (X9) cm 足长 (X10) cm 胸围 (X11) cm 大腿围 (X12) cm 小腿围 (X13) cm 上臂紧张围 (X14) cm 2019/1/25(X15) cm 上臂放松围

主成分分析和因子分析实例ppt课件

主成分分析和因子分析实例ppt课件

精选ppt
6
主成分分析
当坐标轴和椭圆的长短轴平行,那么代表长轴的 变量就描述了数据的主要变化,而代表短轴的变 量就描述了数据的次要变化。
但是,坐标轴通常并不和椭圆的长短轴平行。因 此,需要寻找椭圆的长短轴,并进行变换,使得 新变量和椭圆的长短轴平行。
如果长轴变量代表了数据包含的大部分信息,就 用该变量代替原先的两个变量(舍去次要的一 维),降维就完成了。
精选ppt
8
主成分分析
正如二维椭圆有两个主轴,三维椭球有三个 主轴一样,有几个变量,就有几个主成分。
选择越少的主成分,降维就越好。什么是标 准呢?那就是这些被选的主成分所代表的主 轴的长度之和占了主轴长度总和的大部分。 有些文献建议,所选的主轴总长度占所有主 轴长度之和的大约85%即可,其实,这只是一 个大体的说法;具体选几个,要看实际情况 而定。
主成分的含义
由原始数据的协方差阵或相关系数据阵,
可计算出矩阵的特征根:
1 2 p
则: 1 对应 Y1的方差
2
对应
Y
的方差
2
p 对应
Y
的方差
p
精选ppt
13
主成分的含义
但是,spss软件中没有直接给出主成分系 数,而是给出的因子载荷,我们可将因子 载荷系数除以相应的 i ,即可得到主成分 系数。
椭圆(球)的长短轴相差得越大降维也越有道理。
精选ppt
7
主成分分析
对于多维变量的情况和二维类似,也有高 维的椭球,只不过无法直观地看见罢了。
首先把高维椭球的主轴找出来,再用代表 大多数数据信息的最长的几个轴作为新变 量;这样,主成分分析就基本完成了。
注意,和二维情况类似,高维椭球的主轴 也是互相垂直的。这些互相正交的新变量 是原先变量的线性组合,叫做主成分 (principal component)。

《主成份与因子分析》课件

《主成份与因子分析》课件

助我们理解变量之间的关系。
因子分析的原理和步骤
1
原理
通过假设存在一些潜在的因子来解释观测数据中的相关性。
2
步骤
1. 确定因子数目 2. 估计因子载荷矩阵 3. 旋转因子载荷矩阵 4. 解释因子载荷矩阵 5. 命名解释出的因子
3
总结与展望
因子分析可以帮助我们理解观测数据中的潜在结构与因果关系。
区别与联系
主成份与因子分析
在这份PPT课件中,我们将探讨主成份与因子分析的定义、背景以及它们在 不同领域的应用。我们还将介绍分析的原理和步骤,并通过案例研究加深理 解。让我们一同进入这个令人着迷的主题!
定义和背景
1 主成份分析
通过线性组合一组变量,提取出能够解释数据方差最多的几个主成份。
2 因子分析
通过假设存在一些无法直接观测到的“因子”,解释观测数据的相关性。
3 背景
这些分析方法应用广泛,从社会科学到自然科学,都有探索变量关系的需求。
主成份分析的原理和步骤
1
原理
通过寻找能够最大化解释数据方差的线
步骤
2
性组合来减少变量数目。
1. 标准化变量
2. 计算协方差矩阵
3. 计算特征值和特征向量
4. 选择最大特征值对应的特征向量
3
总结与展望
5. 归一化主成份
主性组合减少变量数目,因子分析 通过解释观测数据的相关性来揭示潜在的因子。
联系
两种分析方法都可以帮助我们理解变量之间的关系, 从而为进一步研究和应用提供依据。
应用领域
社会科学
主成份和因子分析被广泛用 于心理学、教育学等社会科 学领域,帮助揭示变量之间 的潜在关系。
市场研究
通过主成份和因子分析,我 们可以了解消费者偏好、产 品特征等市场信息。

主成分分析与因子分析法ppt课件

主成分分析与因子分析法ppt课件
9
事实上,以上问题在平时的研究中,也会经 常遇到。它所涉及的问题可以推广到对企业、 对学校、对区域进行分析、评价、排序和分 类等。
比如对n个样本进行综合评价,可选的描述样 本特征的指标很多,而这些指标往往存在一 定的相关性(既不完全独立,又不完全相 关),这就给研究带来很大不便。若选指标 太多,会增加分析问题的难度与复杂性,选 指标太少,有可能会漏掉对样本影响较大的 指标,影响结果的可靠性。
在各种线性组合中方差达到最大者。
满足上述约束得到的合成变量Y1, Y2, …, Yp分别称为 原始变量的第一主成分、第二主成分、…、第 p 主成分,
而且各成分方差在总方差中占的比重依次递减。在实际研究
工作中,仅挑选前几个方差较大的主成分,以达到简化系统
结构的目的。
24
24
三、主成分分析的计算步骤
25
21
(二) 主成分分析的基本思想
假如对某一问题的研究涉及 p 个指标,记为X1,X2, …,
Xp,由这 p 个随机变量构成的随机向量为X=(X1, X2, …,
Xp),设 X 的均值向量为,协方差矩阵为。设Y=(Y1, Y2 ,
… , Yp)为对 X 进行线性变换得到的合成随机向量,即
Y1 11
主成分分析法与因子分析法
1
主要内容
➢ 主成分分析法 ➢ 因子分析法 ➢ 附:主成分分析法与因子分析法的区别
2
主成分分析法
(Principal Components Analysis,PCA) ➢ 主成分分析法概述 ➢ 主成分分析的基本原理 ➢ 主成分分析的计算步骤
3
一、主成分分析概述
4
引子
假定你是一个公司的财务经理,掌握了公 司的所有数据,这包括众多的变量,比如 固定资产、流动资金、每一笔借贷的数额 和期限、各种税费、工资支出、原料消耗、 产值、利润、折旧、职工人数、职工的分 工和教育程度等等。

医学统计学课件--主成分分析与因子分析(第20章)

医学统计学课件--主成分分析与因子分析(第20章)

(X X)(X X) n1
(X X)(Y Y) n1
协方差
r (X X)(Y Y) lXY Pearson 相关系数 (X X)2 (Y Y)2 lXXlYY
r (X X) (Y Y) (X X)2 (Y Y)2
r 1 n1
2020/8/1
XX SX
YS医Y学Y统计 学
1≥ 2≥ ≥ m≥0
i=Var(Zi)
2020/8/1
医学统计学
21
4. 由以上方程组,求出相应于特征值 i 的 特征向量(eigenvector)
X1
X2
X11
X12
X21
X22
标 Xm X1m X2m
n
2020/8/1
Xn1
Xn2
医学统计学
Xnm
15
(一)主成分的求法 1. 对各原始指标值进行标准化
X'ij
Xij Xj Sj
j 1, 2 ,, m
为了方便,仍用Xij表示Xij’。
2020/8/1
医学统计学
16
标准化后的数据矩阵
X=
X11
X21
X n1
X12 X22
Xn2
X1m
X2m
Xnm
2020/8/1
医学统计学
17
2. 求出X1 , X2 , … , Xm 的相关矩阵R
r11
R=Cov(X)
=
r21
rm1
r12 r1m
r22 r2m
rm2
rmm
2020/8/1
医学统计学
18
量越多。
2020/8/1
医学统计学
7
二、数学模型及几何意义
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
-2
2020/12/19
X2
2
1
-1
1
0
-1
-2 医学统计学
2 X1
12
Z2 2
X2
2
1
1
1
2 Z1
-2
-1
1
2
0
X1
-1
-1
-1
-2
-2
-2
2020/12/19
医学统计学
13
相关 变异
Z2 2 1
2 Z1
1
0
-1
-1
-2
-2
2020/12/19
医学统计学
14
三、主成分的求法及性质
表 20-1 主成分分析的原始数据表
主成分分析 与因子分析
PrincipalComponentsAnalysis &FactorAnalysis
2020/12/19
医学统计学
1
讲课内容: 第一节 主成分分析 第二节 因子分析
2020/12/19
医学统计学
2
第一节 主成分分析 Principal Components Analysis
2020/12/19
医学统计学
6
➢ 找出几个综合指标(长度、围度、特体),这些综合指标是原始指标的线性组合,既保留了原始 指标的信息,且互不相关。
➢ 各综合指标提供的“信息”量大小用其方差来衡量。
➢ 衡量一个指标的好坏除了正确性与精确性外,还必须能充分反映个体间的变异,一 项指标在个体间的变异越大,提供的信息 量越多。
X 11 X 12 X 1m
X = X 21 X 22 X 2m
X
n
1
X n2
X
nm
2020/12/19
医学统计学
17
2. 求出X1 , X2 , … , Xm 的相关矩阵R
R=Cov(X) =
r11 r12 r1m
r21 r22 r2m
rm
1
rm2
r mm
a
2 21
a
2 22
a
2 2m
1
Z 与Z 无关,互相垂直:
1
2
a a 21 11 a a 22 12 a a 2m 1m 0
Var (Z )在所有Zi中为第2大。 2
…… 理论上主成分个数最多为m个(指标个数)
实际工作中确定的主成分个数总是小于m个
2020/12/19
医学统计学
11
相关 变异
208
176.6
89.7
57.7
37.0
26.5
19.0
75.8
48.8
42.0
26.6
79.0
49.0
35.5
24.0
22.0
5
如何利用这些指标对每一儿童的生长发育 作出正确评价?
➢ 仅用单一指标: 结论片面; 没有充分利用原有数据信息。
➢ 利用所有指标: 各指标评价的结论可能不一致,使综合 评价困难; 工作量大。
标准化后的协方差 19
3. 求出矩阵R的全部特征值(eigenvalue) i, 第i个主成分的组合系数ai1, ai2, , aim满
足方程组:
(r11- i) ai1+ r12 ai2+ + r1m aim =0 r21 ai1+ (r22- i) ai2+ + r2m aim=0
rm1 ai1+ rm2 ai2+ + (rmm- i) aim =0
4
某地 208 名 14 岁男中学生 15 项形态指标测试结果
指标、单位
身高 (X1) cm 坐高 (X2) cm 体重 (X3) kg 肩宽 (X4) cm 骨盆宽 (X5) cm 手长 (X6) cm 上肢长 (X7) cm 小腿加足高 (X8) cm 小腿长 (X9) cm 足长 (X10) cm 胸围 (X11) cm 大腿围 (X12) cm 小腿围 (X13) cm 上臂紧张围 (X14) cm 上臂2放02松0/1围2/1(9X15) cm
样品号
1 2
观测指
X1
X2
X11
X12
X21
X22
标 Xm X1m X2m
n
2020/12/19
Xn1
Xn2
医学统计学
Xnm
15
(一)主成分的求法 1. 对各原始指标值进行标准化
X'ijXijSjXj j12, ,,m
为了方便,仍用Xij表示Xij’。
2020/12/19
医学统计学
16
标准化后的数据矩阵
2020/12/19
医学统计学
20
(r11- i) ai1+ r12 ai2+ + r1m aim =0 r21 ai1+ (r22- i) ai2+ + r2m aim=0
rm1 ai1+ rm2 ai2+ + (rmm- i) aim =0
i为矩阵R的第i个特征值, 共有m个非负特征值,由大到小的顺序排列为: 1≥ 2≥ ≥ m≥0 i=Var(Zi)
2020/12/19
医学统计学
18
( X X )( X X )
n1
协方差
( X X )( Y Y )
n1
r (XX)Y ( Y) lXY Pearson 相关系数 (XX)2(YY)2 lXlXYY
r (XX) (YY) (XX)2 (YY)2
r 1 n1
2020/12/19
XSXXYS 医Y 学Y 统计学
2020/12/19
医学统计学
3
一、基本思想 ➢数据的降维、数据的解释
将原来众多具有一定相关性的指标,组 合成一组新的相互无关的综合指标。 从中选取几个较少的综合指标尽可能多 的反映原来众多指标的信息。 ➢这种既减少了指标的数目又抓住了主要矛 盾的做法有利于问题的分析和处理。
2020/12/19
医学统计学
2020/12/19

1
2
140.0
141.6
76.0
76.2
36.3
31.4
32.0
29.0
23.0
22..0
16.1
15.6
61.1
60.6
23.1
21.8
71.3
65.7
41.8
41.7
31.6
29.0
22.3
19.8
20.5医学统计学 17.5

…… …… …… …… …… …… …… …… …… …… …… …… …… …… …… ……
2020/12/19
医学统计学
7
二、数学模型及几何意义
Z1 a11X1 a12X2 a1mXm Z2 a21X1 a22X2 a2mXm
Zm am1X1 am2X2 ammXm
2020/12/19
医学统计学
8
Z=AX
Z1
a11 a12 … a1m
X1
Z2 =
a21 a22 … a2m
X2



…┇

Zm
am1 am2 … amm
Xm
2020/12/19
医学统计学
9
第一主成分
Z 1 a 1 X 1 1 a 1 X 2 2 a 1 m X m a1 21 a1 22 a1 2 m 1
Va(rZ)在所有Zi中最大 1
2020/12/19
医学统计学
10
第二主成分
Z2 a21X1 a22X2 a2m Xm
相关文档
最新文档