医学统计学--主成分分析及因子分析(第20章)
数据分析中的因子分析与主成分分析
数据分析中的因子分析与主成分分析在当今信息爆炸的时代,数据分析已经成为了各行各业中不可或缺的一部分。
在数据分析的过程中,因子分析和主成分分析是常用的两种统计方法。
它们可以帮助我们理解数据背后的隐藏规律和关联性。
本文将介绍因子分析和主成分分析的基本概念、应用场景以及它们之间的区别。
一、因子分析因子分析是一种用于探索多个变量之间关系的统计方法。
它的基本思想是将多个相关的变量归纳为少数几个潜在因子,从而简化数据的复杂性。
通过因子分析,我们可以找到隐藏在数据背后的共性因素,并将其用较少的变量来代表。
在因子分析中,我们需要确定两个重要的概念:因子载荷和公因子。
因子载荷表示变量与因子之间的相关性,取值范围为-1到1。
而公因子则是指影响多个变量的共同因素。
通过因子分析,我们可以得到每个变量对于每个公因子的因子载荷,从而得知变量之间的相关性以及它们与公因子的关系。
因子分析在实际应用中有着广泛的用途。
例如,在市场调研中,我们可以利用因子分析来确定消费者对于某个产品的偏好因素;在心理学研究中,我们可以通过因子分析来探索人们的个性特征。
因子分析的结果可以帮助我们更好地理解数据,为进一步的分析提供基础。
二、主成分分析主成分分析是一种用于降维的统计方法。
它的目标是通过线性组合将原始变量转化为一组新的互相无关的变量,即主成分。
主成分分析通过保留原始数据的大部分信息,同时减少数据的维度,从而达到简化数据和减少冗余的目的。
在主成分分析中,我们首先需要计算协方差矩阵。
然后,我们通过求解协方差矩阵的特征值和特征向量,得到主成分。
特征值表示主成分的重要性,而特征向量则表示主成分的方向。
通过选择特征值较大的主成分,我们可以保留较多的原始数据信息。
主成分分析在实际应用中也有着广泛的用途。
例如,在金融领域,我们可以利用主成分分析来构建投资组合,降低风险;在图像处理中,我们可以利用主成分分析来提取图像的特征。
主成分分析可以帮助我们更好地理解数据的结构,发现数据中的重要特征。
主成分分析 因子分析
主成分分析 因子分析主成分分析和因子分析是很重要的统计分析方法。
两者都是用于对一组同质或异质的变量进行数据探索研究的技术,它们都可以提供有价值的结论,增强数据有意义的理解。
1. 主成分分析主成分分析(Principal Component Analysis,简称PCA)是从一大组变量中提取具有代表性的正交变量,组成一个新的变量集合。
PCA通过减少变量数量,减少多变量间相关性带来的重复性,从而提升数据分析的准确性和有效性。
注意减少变量数量不是减少观测样本数量,而是把原先高维度的变量合并成一组较低维度的变量。
PCA算法的基本思想是:它分析原始数据集中的变异,并从中提取主要的变量,然后将这些变量的组合(叫做主成分)用推断法来重新构建原来的数据集,最后能够说明原始变量的结构,对被研究的变量结构有系统的解释。
2. 因子分析因子分析(Factor Analysis,简称FA)是一种用来探索相关变量之间潜在关系的统计分析方法。
这一方法注重的是把一系列的变量映射到一个尽可能少的多个隐变量的过程。
其中,这些隐变量就是“因子”,它们是原来变量的代表性变量,且变量之间有因果或相关的结构关系。
FA的基本思想是,将一组变量之间的复杂的相关关系映射到一组基本关系,即因子上。
然后,当每个变量映射到一个或几个因子上后,只需要解释因子就能够完全解释自变量变化的原因。
常用的因子模型有因子旋转、因子分层、因子波动等。
相比较,主成分分析和因子分析都有各自的专业领域,它们都有不同的数据需求和分析方法,在不同的数据处理中也表现出各自的优势和劣势。
主成分分析处理比较复杂的数据,可以根据原始变量的关系构建视图,但不涉及因果关系的推断;而因子分析可以推导出被研究的变量之间的关系,进而探索或验证其原因。
卫生统计学:主成分分析与因子分析
通常先对x作标准化处理,使其均值为 零,方差为1.这样就有
x i a i1 f1 a i2 f2 a im fm e i
假定〔1〕fi的均数为 i22 0,方差为1; 〔2〕ei的均数为0,方差为δi; 〔3〕 fi与ei相互独立.
那么称x为具有m个公共因子的因子模型
〔2〕δi称为特殊方差〔specific variance〕,是不能由公共因子解 释的局部
▪ 因子载荷〔负荷〕aij是随机变量xi与 公共因子fj的相关系数。
▪设
p
g
2 j
a
2 ij
i1
j 1, 2 ,..., m
▪ 称gj2为公共因子fj对x的“奉献〞, 是衡量公共因子fj重要性的一个指标。
根本思想:使公共因子的相对负荷 〔lij/hi2〕的方差之和最大,且保持 原公共因子的正交性和公共方差总和 不变。
可使每个因子上的具有最大载荷的变量 数最小,因此可以简化对因子的解释。
〔2〕斜交旋转〔oblique rotation〕
因子斜交旋转后,各因子负荷发生 了较大变化,出现了两极分化。各 因子间不再相互独立,而彼此相关。 各因子对各变量的奉献的总和也发 生了改变。
ai2j
g
2 j
i1
▪ 极大似然法〔maximum likelihood factor〕
▪ 假定原变量服从正态分布, 公共因子和特殊因子也服从正态分 布,构造因子负荷和特殊方差的似 然函数,求其极大,得 factor〕
▪ 设原变量的相关矩阵为 R=(rij),其逆矩阵为R-1=(rij)。 各变量特征方差的初始值取为逆 相关矩阵对角线元素的倒数, δi’=1/rii。那么共同度的初始值 为(hi’) 。
主成分分析与因子分析
∴
( yk ,xi )
k ii
tik
4. m个主成分对原始变量的贡献率
用xi 与 y1 , …, ym 的复相关系数的平方,作为
度量主成分y1 , …, ym包含有 xi 的信息多少的指标
称为m个主成分y1 , …, ym对原始变量xi的贡献率,
记为νi( i21 m)。
m
m
ቤተ መጻሕፍቲ ባይዱ
i 2 ( xi ,y j ) jti2j / ii
载荷矩阵
∵ X=T y 其中 T = ( tij )
x1 x2
t11 t21
t12 t22
x p
t p1
t p2
t1 p t2 p
y1 y2
t
pp
y
p
选取前m个主成分,记
xˆ 1
一般地,第 i 主成分为:
y i tiT x
var yi i ,
i 1, p
主成分的性质
1.主成分的协方差矩阵
Y
y1
,
1
0
y p
0
p
由于 Y T T X X TY
var(Y ) var( T T x ) T T var( x )T T T T TTTTTT
标准化主成分 f 的载荷矩阵
先对m个主成分 的方差标准化,再求出主 成分的载荷矩阵。令:
主成分分析和因子分析(朱艳科)
主成分分析和因子分析法一、主成分分析概论主成分分析的工作对象是样本点×定量变量类型的数据表。
它的工作目标,就是要对这种多变量的平面数据表进行最佳综合简化。
也就是说,要在力保数据信息丢失最少的原则下,对高维变量空间进行降维处理。
很显然,识辨系统在一个低维空间要比一个高维空间容易得多。
英国统计学家斯格特(M.Scott )在1961年对157个英国城镇发展水平进行调查时,原始测量的变量有57个。
而通过主成分分析发现,只需5个新的综合变量(它们是原变量的线性组合),就可以95%的精度表示原数据的变异情况,这样,对问题的研究一下子从57维降到5维。
可以想象,在5维空间中对系统进行任何分析,都比在57维中更加快捷、有效。
另一项十分著名的工作是美国的统计学家斯通(Stone)在1947年关于国民经济的研究。
他曾利用美国1929~1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息和外贸平衡等等。
在进行主成分分析后,竟以97.4%的精度,用三个新变量就取代了原17个变量。
根据经济学知识,斯通给这三个新变量要别命名为总收入1F 、总收入变化率2F 和经济发展或衰退的趋势3F (是时间t 的线性项)。
更有意思的是,这三个变量其实都是可以直接测量的。
二、主成分分析的基本思想与理论1、主成分分析的基本思想在对某一事物进行实证研究中,为了更全面、准确地反映出事物的特征及其发展规律,人们往往要考虑与其有关系的多个指标,这些指标在多元统计中也称为变量。
这样就产生了如下问题:一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标,而另一方面随着考虑指标的增多增加了问题的复杂性,同时也由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信息有时甚至会抹杀事物的真正特征与内在规律。
基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。
主成分分析与因子分析法
主成分分析与因子分析法主成分分析是一种减少数据维度的统计学方法,通过将多变量数据投影到一个较低维度的空间中,实现数据的降维。
主成分分析的基本思想是将原始数据转换为一组新的变量,这些新的变量称为主成分,通过主成分的降序排列,能够使原始数据中较大方差的信息更好地保留下来。
1.数据标准化:根据数据的特点,将数据进行标准化处理,使得各个变量具有相同的尺度。
2.计算协方差矩阵:通过计算数据的协方差矩阵,了解各个变量之间的相关性。
3.求解特征向量和特征值:通过对协方差矩阵进行特征值分解,得到特征向量和特征值。
4.选择主成分:选取前k个特征向量对应的主成分,使得它们能够解释绝大部分的方差。
通常选择的标准是特征值大于1,或者解释方差的累积比例达到一定的阈值。
5.主成分系数:计算原始变量和主成分之间的线性关系,这个关系可以用主成分的特征向量作为系数矩阵进行表示。
1.降低维度:主成分分析能够将高维数据降维,提取出最能代表原始数据的主成分。
2.去除冗余信息:通过选择主成分,可以去除原始数据中的冗余信息,提取出最有用的信息。
3.可视化:降维后的数据可以更容易地可视化和解释。
二、因子分析法(Factor Analysis)因子分析法是一种用于确定多个观测变量之间的潜在结构的统计学方法。
它假设观测变量是由一组潜在因子决定的,通过观测变量和因子之间的相关性,可以推断出潜在因子之间的关系。
因子分析法的基本步骤如下:1.确定因子数:根据研究的目的和背景,确定潜在因子的个数。
2.求解因子载荷矩阵:通过最大似然估计或主因子方法,求解因子载荷矩阵,得到每个观测变量与潜在因子之间的相关关系。
3.提取因子:根据因子载荷矩阵,提取出与观测变量相关性最高的因子,将原始数据映射到潜在因子空间中。
4.旋转因子:通过旋转因子载荷矩阵,使得因子之间更易解释和解读,常用的旋转方法有正交旋转和斜交旋转。
5.因子得分:根据观测变量的信息和因子载荷矩阵,计算每个样本在每个因子上的得分。
因子分析与主成分分析
因子分析与主成分分析因子分析和主成分分析是统计学中常用的降维技术,它们在数据分析和模式识别等领域中广泛应用。
本文将介绍因子分析和主成分分析的基本概念与原理,并对它们的应用进行探讨。
一、因子分析的概念与原理因子分析是一种用于发掘多个变量之间潜在关联性的方法。
当我们面对大量变量时,往往希望找到其中的共性因素来解释观测数据。
因子分析通过将变量进行降维,将原始变量解释为共同的因子或构念,从而减少信息冗余,提取数据的主要特征。
因子分析的核心思想是假设多个观测变量是由少数几个潜在因子所共同决定的。
这些潜在因子无法直接观测,但可以通过观测变量的线性组合进行间接估计。
通过因子分析,我们可以得到因子载荷矩阵,它描述了每个观测变量与潜在因子之间的关系强度。
二、主成分分析的概念与原理主成分分析是一种常用的无监督学习方法,用于降维和数据压缩。
与因子分析类似,主成分分析也采用线性组合的方式将原始变量映射到一个低维的特征空间。
主成分分析的目标是找到一组新的变量,称为主成分,它们能够最大程度地保留原始数据中的信息。
主成分分析的步骤如下:1. 标准化数据:将原始数据标准化,使得变量的均值为0,方差为1,以消除变量尺度差异的影响。
2. 计算协方差矩阵:计算标准化后的数据的协方差矩阵,用于评估各个变量之间的相关性。
3. 特征值分解:对协方差矩阵进行特征值分解,得到特征值和特征向量。
4. 选择主成分:根据特征值大小,选择要保留的主成分数量。
5. 计算主成分:将原始数据投影到所选择的主成分上,得到降维后的数据。
三、因子分析与主成分分析的应用1. 数据降维:因子分析和主成分分析可以用于降低数据集的维度,减少冗余信息。
在机器学习和数据挖掘中,高维数据集的处理往往会面临计算复杂度和过拟合等问题,降维技术可以有效解决这些问题。
2. 变量选择:通过因子分析和主成分分析,可以识别出对观测数据具有重要影响的变量。
这对于特征选择和模型建立有重要意义,可以提高模型的解释性和泛化能力。
因子分析与主成分分析的区别与应用
因子分析与主成分分析的区别与应用因子分析与主成分分析是统计学中常用的多变量分析方法,用于降维和提取数据中的主要信息。
虽然它们都可以用于数据分析,但在方法和应用上存在一些区别。
本文将介绍因子分析与主成分分析的区别,并讨论它们各自的应用。
一、因子分析与主成分分析的定义因子分析是一种用于研究多个观测变量之间的内在相关性结构的统计技术。
它通过将多个变量组合为少数几个“因子”来解释数据的方差。
每个因子代表一组相关性高的变量,可以帮助我们理解数据背后的潜在结构。
主成分分析是一种通过将原始变量转换为线性组合(即主成分)来降低多维数据维度的技术。
它通过找到数据中的最大方差方向来确定主成分,并逐步提取主成分,以解释数据的最大方差。
主成分分析可以帮助我们发现数据中的主要特征。
二、因子分析与主成分分析的区别1. 目的不同:因子分析的目的是确定一组能够最好地描述观测数据之间关系的因子,并解释数据中的方差。
因子分析更加关注变量之间的共同性和相关性,希望通过较少的因子来解释数据。
主成分分析的目的是通过寻找数据中的主要结构和主要特征来降低数据的维度。
主成分分析着重于方差的解释,通过线性组合来减少变量数量,提取出主要成分。
2. 基本假设不同:因子分析基于观察变量之间的共同性,假设观测变量是由一组潜在因子决定的。
它假设每个观测变量都与每个因子有一个固定的因子载荷。
主成分分析假设原始变量之间是线性相关的,并且通过线性变换,可以找到解释大部分数据方差的新变量。
3. 输出结果不同:因子分析输出因子载荷矩阵,该矩阵显示每个因子与每个观测变量之间的关系。
因子载荷表示每个因子对每个变量的贡献程度,可用于解释观测变量之间的共同性。
主成分分析输出的是主成分,每个主成分是原始变量的线性组合。
主成分按照解释的方差大小排序,因此前几个主成分更能代表原始数据的方差。
三、因子分析与主成分分析的应用因子分析的应用广泛,可以用于心理学、社会科学、市场调研等领域。
多元统计主成分分析与因子分析20
例20-1 某研究者调查了18名小学三年级学生的数学(X1)、语文(X2)、常识(X3)、音乐(X4)、美术(X5)五个学科的成绩,并测试了智商(X6),所得数据如表20-2,试利用主成分分析找出几个相互独立的主成分,以便进一步对各名学生的学习能力进行综合评价。
表20-2 18名小学生6项指标的观测值编号XX2X3X4X5X611 92 77 80 95 99 1262 97 75 77 80 95 1253 95 80 70 78 89 1204 75 75 73 88 98 1105 92 68 72 79 88 1136 90 85 80 70 78 1037 72 93 75 77 80 1008 88 70 76 72 81 1029 64 70 69 85 93 10510 70 73 70 87 84 10011 78 69 75 73 89 9712 78 72 71 68 75 9613 75 64 63 76 73 9214 84 66 77 55 65 7615 70 64 51 60 67 8816 58 72 75 62 52 7517 82 73 40 50 48 6118 45 65 42 47 43 60例20-2 某医院为了合理地评价该院各月的医疗工作质量,搜集了三年有关门诊人次、出院人数、病床利用率、病床周转次数、平均住院天数、治愈好转率、病死率、诊断符合率、抢救成功率等9个指标数据,如表20-8。
现采用因子分析方法,探讨其综合评价指标体系。
表20-8 某医院三年的医疗工作质量有关指标实测值年月X0门诊人次X1出院人数X2病床利用率X3病床周转次数X4平均住院天数X5治愈好转率X6(%)病死率X7(%)诊断符合率X8(%)抢救成功率X9(%)91.01 4.34 389 99.06 1.23 25.46 93.15 3.56 97.51 61.66 91.02 3.45 271 88.28 0.85 23.55 94.31 2.44 97.94 73.33 91.03 4.38 385 103.97 1.21 26.54 92.53 4.02 98.48 76.79 91.04 4.18 377 99.48 1.19 26.89 93.86 2.92 99.41 63.16 91.05 4.32 378 102.01 1.19 27.63 93.18 1.99 99.71 80.00 91.06 4.13 349 97.55 1.10 27.34 90.63 4.38 99.03 63.16 91.07 4.57 361 91.66 1.14 24.89 90.60 2.73 99.69 73.53 91.08 4.31 209 62.18 0.52 31.74 91.67 3.65 99.48 61.11 91.09 4.06 425 83.27 0.93 26.56 93.81 3.09 99.48 70.73 91.10 4.43 458 92.39 0.95 24.26 91.12 4.21 99.76 79.07 91.11 4.13 496 95.43 1.03 28.75 93.43 3.50 99.10 80.4991.12 4.10 514 92.99 1.07 26.31 93.24 4.22 100.00 78.9592.01 4.11 490 80.90 0.97 26.90 93.68 4.97 99.77 80.53 92.02 3.53 344 79.66 0.68 31.87 94.77 3.59 100.00 81.97 92.03 4.16 508 90.98 1.01 29.43 95.75 2.77 98.72 62.86 92.04 4.17 545 92.98 1.08 26.92 94.89 3.14 99.41 82.35 92.05 4.16 507 95.10 1.01 25.82 94.41 2.80 99.35 60.61 92.06 4.86 540 93.17 1.07 27.59 93.47 2.77 99.80 70.21 92.07 5.06 552 84.38 1.10 27.56 95.15 3.10 98.63 69.23 92.08 4.03 453 72.69 0.90 26.03 91.94 4.50 99.05 60.42 例题20-1(EX20-1.dta):. factor x1-x6,pc means(obs=18)Variable | Mean Std. Dev. Min Max-------------+----------------------------------------------------x1 | 78.05556 13.73048 45 97x2 | 72.83333 7.48528 64 93x3 | 68.66667 12.09278 40 80x4 | 72.33333 13.35048 47 95x5 | 77.61111 16.92245 43 99x6 | 97.16667 19.43087 60 126(principal components; 6 components retained)Component Eigenvalue Difference Proportion Cumulative------------------------------------------------------------------1 3.98290 3.15150 0.6638 0.66382 0.83141 0.16837 0.1386 0.80243 0.66304 0.25100 0.1105 0.91294 0.41204 0.34801 0.0687 0.98165 0.06403 0.01746 0.0107 0.99226 0.04658 . 0.0078 1.0000EigenvectorsVariable | 1 2 3 4 5 6-------------+----------------------------------------------------------------- x1 | 0.34279 0.07105 0.88272 0.11837 0.28759 0.03902 x2 | 0.25355 0.91405 -0.20001 0.23378 -0.02013 0.07183 x3 | 0.40390 0.11256 -0.04505 -0.90612 0.00644 -0.03269 x4 | 0.44669 -0.23400 -0.40532 0.20194 0.71151 -0.18548 x5 | 0.47278 -0.26333 -0.12004 0.15439 -0.29697 0.76203 x6 | 0.48167 -0.15064 0.00855 0.21369 -0.56781 -0.61413. factor x1-x6,mine(0.01) pcf(obs=18)(principal component factors; 6 factors retained)Factor Eigenvalue Difference Proportion Cumulative------------------------------------------------------------------1 3.98290 3.15150 0.6638 0.66382 0.83141 0.16837 0.1386 0.80243 0.66304 0.25100 0.1105 0.91294 0.41204 0.34801 0.0687 0.98165 0.06403 0.01746 0.0107 0.99226 0.04658 . 0.0078 1.0000Factor LoadingsVariable | 1 2 3 4 5 6-------------+----------------------------------------------------------------- x1 | 0.68412 0.06479 0.71878 0.07598 0.07277 0.00842 x2 | 0.50602 0.83345 -0.16286 0.15006 -0.00509 0.01550 x3 | 0.80608 0.10264 -0.03668 -0.58164 0.00163 -0.00706 x4 | 0.89147 -0.21337 -0.33004 0.12963 0.18005 -0.04003 x5 | 0.94355 -0.24011 -0.09774 0.09911 -0.07515 0.16446 x6 | 0.96128 -0.13735 0.00697 0.13717 -0.14368 -0.13254Factor LoadingsVariable |Uniqueness-------------+----------x1 | 0.00000x2 | -0.00000x3 | 0.00000x4 | 0.00000x5 | 0.00000x6 | 0.00000. score z1-z3(based on unrotated factors)(3 scorings not used)Scoring CoefficientsVariable | 1 2 3-------------+--------------------------------x1 | 0.17176 0.07793 1.08407x2 | 0.12705 1.00245 -0.24563x3 | 0.20238 0.12345 -0.05533x4 | 0.22383 -0.25663 -0.49777x5 | 0.23690 -0.28880 -0.14742x6 | 0.24135 -0.16521 0.01051. quietly factor x1-x6,mine(0.01) pcf. gen f=(z1*r(lambda1)+z2*r(lambda2)+z3*r(lambda3))/6. egen totalscore=rsum(x1-x6). gsort - f. l totalscore id z1-z3 ftotalsc~e id z1 z2 z3 f1. 569 1 1.472416 -.2930345 -.103475 .92537492. 549 2 1.130913 -.1980218 .9642215 .82983243. 532 3 .8939767 .5721344 .7984022 .76094524. 506 6 .584383 1.801504 .5787218 .70150685. 497 7 .5194059 2.576505 -1.362115 .55128936. 512 5 .602061 -.9741927 .9138077 .36564827. 519 4 .7785597 -.4411606 -1.086971 .33557338. 489 8 .3009298 -.3406681 .8300895 .24428699. 481 11 .2087767 -.6547917 -.0317313 .044349910. 484 10 .2948939 -.4248423 -1.248548 -.001086411. 460 12 -.0994829 .0496813 .1959662 -.037498712. 486 9 .3067468 -1.02853 -1.620377 -.117959513. 423 14 -.6322086 -.0679534 1.400122 -.274364714. 443 13 -.3502443 -1.206041 -.0247946 -.402356815. 394 16 -.9661463 .6634074 -.9886871 -.658673816. 400 15 -1.015548 -.9129516 .2820022 -.769481317. 354 17 -1.665773 .9942052 1.5082 -.801338318. 302 18 -2.363658 -.1152501 -1.004835 -1.696048Stata命令与结果例题20-2(EX20-2.dta):. factor x1-x9,mine(0.7) pcf(obs=36)(principal component factors; 4 factors retained)Factor Eigenvalue Difference Proportion Cumulative ------------------------------------------------------------------1 2.80742 0.81629 0.3119 0.31192 1.99113 0.54281 0.2212 0.53323 1.44832 0.66325 0.1609 0.69414 0.78507 0.10437 0.0872 0.78135 0.68070 0.13944 0.0756 0.85706 0.54126 0.08823 0.0601 0.91717 0.45303 0.27852 0.0503 0.96748 0.17451 0.05596 0.0194 0.98689 0.11855 . 0.0132 1.0000Factor LoadingsVariable | 1 2 3 4 Uniqueness -------------+------------------------------------------------------ x1 | -0.25458 0.77000 0.00776 0.47017 0.12117 x2 | 0.76587 0.12768 0.09055 0.50844 0.13043 x3 | 0.24434 0.77639 -0.08574 -0.44304 0.13387 x4 | 0.68927 0.66058 -0.07059 -0.01973 0.08316 x5 | -0.72423 0.12457 0.44013 0.18939 0.23038 x6 | 0.03930 -0.07076 0.88821 -0.00886 0.20445 x7 | -0.40462 -0.16381 -0.66326 0.24270 0.31063 x8 | -0.62276 0.40190 0.04132 -0.11635 0.43540 x9 | 0.73732 -0.36590 0.05894 0.02089 0.31856. factor x1-x9,factors(4) pf(obs=36)(principal factors; 4 factors retained)Factor Eigenvalue Difference Proportion Cumulative ------------------------------------------------------------------1 2.40201 0.79050 0.4839 0.48392 1.61150 0.71022 0.3246 0.80853 0.90129 0.51338 0.1816 0.99004 0.38791 0.27032 0.0781 1.06825 0.11759 0.08361 0.0237 1.09196 0.03398 0.05967 0.0068 1.09877 -0.02569 0.13818 -0.0052 1.09358 -0.16386 0.13655 -0.0330 1.06059 -0.30041 . -0.0605 1.0000Factor LoadingsVariable | 1 2 3 4 Uniqueness -------------+------------------------------------------------------ x1 | -0.17845 0.68836 0.03313 0.33591 0.38038 x2 | 0.72998 0.02943 0.12835 0.36037 0.31992 x3 | 0.28705 0.68771 -0.06434 -0.34304 0.32284 x4 | 0.73937 0.57953 -0.03613 -0.02279 0.11565 x5 | -0.65592 0.17695 0.38109 0.08571 0.38587 x6 | 0.02066 -0.07004 0.70535 -0.08488 0.48995 x7 | -0.34171 -0.07658 -0.48097 0.11116 0.63368 x8 | -0.49809 0.36120 0.02159 -0.00544 0.62095 x9 | 0.64242 -0.39427 0.06102 0.00849 0.42805。
主成分分析与因子分析法
ei
=1,即
ei2j 1 ,
j 1
其中 表示eij 向量 的e第i j个分量,也就是说
ei 为单位向量。
(三)计算主成分贡献率及累计贡献率
主成分分析是把 p 个随机变量的总方差分解为 p 个不相 关随机变量的方差之和1 + 2 +…+ P,则总方差中属于 第 i 个主成分(被第 i 个主成分所解释)的比例为
•• • • •
标准化后的分数, 右图为其散点图, 椭圆倾斜为45度。
•• •
• ••
•
• ••
•
• •
•
•
•
• •••
• •• •
•• •
• ••
x1
••
如果将坐标轴 X1 和 X2 旋转45º ,那么点在新坐标 系中的坐标(Y1,Y2)与原坐标(X1,X2)有如下的 关系:
Y1和Y2均是X1 和 X2 的线性组合
成
分zi与变量xj之间的相关系数
因子分析法 (Factor Analysis,FA)
因子分析法概述 因子分析法的模型 附:主成分分析与因子分析的区别
(一)因子分析法概述
因子分析法与主成分分析法都基于统计分析法,但两 者有较大的区别。主成分分析是通过坐标变换提取主 成分,也就是将一组具有相关性的变量变换为一组独 立的变量,将主成分表示为原始观察变量的线性组合。 而因子分析法是要构造因子模型,将原始观察变量分 解为因子的线性组合。因此因子分析法是主成分分析 法的发展。
在新坐标系中, 可以发现:虽然
x 2
散点图的形状没
有改变,但新的
•• • • •
随机变量 Y1 和 Y2 已经不再相 关。而且大部分 点沿 Y1 轴散开,
主成份分析和因子分析
. 16
主成分的贡献率
对于第k个主成分,其对方差的贡献率为 k
p
i
i1
前k个主成分贡献率的累计值称为累计贡献 率。
. 17
主成分个数的确定
通常有两种方式: 1、根据大于1的特征值的个数确定主成 分的个数; 2、根据主成分的累计贡献率确定主成分 的个数,使累计贡献率>85%或者其他值。
特征向量
这是根据 SPSS的结果 在Excel计算出 的特征向量 [aij] 。
根据这个表可 以写出4个主成 分的表达式。
简历格式 外貌 研究能力 兴趣爱好 自信心 洞察力 诚信度 推销能力 工作经验 工作魄力 志向抱负 理解能力 潜能 求职渴望度 适应力
1 0.162 0.213 0.040 0.225 0.290 0.315 0.158 0.324 0.134 0.315 0.318 0.331 0.333 0.259 0.236
F1 a11x1 a12 x2 a1p xp F2 a21x1 a22 x2 a2 p xp
Fp ap1x1 ap2 x2 app xp
把原始变量的值代入主成分表达式中,可
以计算出主成分得分。
注意在计算主成分得分时需要先对原始变 量进行标准化。
得到的主成分得分后,可以把各个主成分 看作新的变量代替原始变量,从而达到降 维的目的。
主成分分析的几何意义
第一主成分的效果与椭圆的形状有关。椭圆越 扁平,n个点在F1轴上的方差就相对越大,在 F2轴上的方差就相对越小,用第一主成分代替 所有样品造成的信息损失就越小。
. 10
主成分分析的几何意义
x 2
F
1
F
2
•
原始变量 不相关时, 主成分分 析没有效 果。
主成分分析及因子分析
p
因此k / i 描述了第k个主成分提取的信息占总信息的份额,我们称此为
i 1
p
总体主成分的性质
T 第k个主成分Yk的贡献率。第一主成分的贡献率最大,表明Y1 e1 X综合
原始变量X 1 , X 2 ,, X p 所含信息的能力最强,而Y1 , Y2 ,, Yp的综合能力 依次减弱.前m个主成分的贡献率之和 i / i 称为Y1 , Y2 ,, Ym的累计
考虑如下线性组合:
T Y1 l1 X l11X 1 l12 X 2 l1p X p, T Y2 l 2 X l 21X 1 l 22 X 2 l 2 p X p, Y l T X l X l X l X p p1 1 p2 2 pp p p
i j
e ij . Var (Yi) Var (X j) i jj jj
i e ij
i
它给出了主成分Yi与X j关联性的度量。
求主成分举例
下面通过具体的例子说明求总体主成分的方法:
T 设随机变量X X1,X 2,X 3)的协方差矩阵为 (
1 2 0 2 5 0, 0 0 2 求X的各主成分。
Var (Yi) Var (l iT X) liT li , i 1,2, p,
总体主成分的定义
T 于是,在约束条件l 2 l 2 1及l1T l 2 0之下,求l 2 使得Var (Y2)达
Cov(Y1 , Y2 ) l1T l 2 0
到最大,由此l 2 所确定的随机变量Y2 l T X称为X 1 , X 2 ,, X p的第 2 二主成分。 一般地,在约束条件liT li 1及Cov(Yi , Yk ) liT l k (k 1, ,i - 1 0 2, ) 下, 求l i 使得Var (Yi)达到最大,由此l i 所确定的Yi l iT X称为 X 1 , X 2 ,, X p的第i个主成分。
一分钟看懂主成分分析与因子分析
一分钟看懂主成分分析与因子分析在实际工作和研究的过程中,为了更加全面系统的反映问题,往往会收集较多的变量,但是这些变量之间也经常会出现较强的相关关系。
为了能够充分有效利用数据,通常希望由较少的新的指标来代替原来较多的旧变量,同时还要求这些新指标尽可能反映原变量的信息。
因此就出现了主成分分析和因子分析,他们能够提取信息,使原有变量降维,从而使问题更加简单直观。
综上,较多变量(相关性较强)→新指标(尽可能反映原信息)→主成分分析、因子分析。
因子分析可以看做是主成分分析的推广和扩展。
1、主成分分析主成分分析是考察多个变量间相关性的多元统计方法,是研究如何通过少数几个主分量来解释多个变量间的内部结构,即从原始变量中导出少数几个主分量,使他们尽可能多的保留原始变量的信息,并且主分量之间彼此互不相关。
主成分的应用目的:数据的压缩、数据的解释。
它常被用来寻找判断某种事物之间或现象的综合指标,并且给综合指标所包含的信息以适当的解释,从而更加深刻揭示事物之间的内在规律。
综上,主成分分析:多个变量(相关性较强)→主分量(尽可能保留原信息,互不相关)→数据压缩和数据解释的目的2、模型入门由上可知我们选择的主成分有两个特点:一是尽可能多的保留信息,二是互不相关。
如何体现特点一:尽可能多的保留原信息,统计学所谓的信息实际往往是指数据的变异,即方差。
因此方差越大,包含的信息越多。
因此我们选择椭圆的长轴作为坐标轴这样子就尽可能保留多的信息,既达到了特点一,又达到了降维的目的。
数学上的操作是将原来的p个指标做线性组合,然后得到新的综合指标,并且将选取的第一个线性组合即第一个综合指标记为F1。
我们希望F1尽可能多的反映原来指标的信息。
最经典的方法就是用F1的方差来表达,即var(F1)越大,则F1包含的信息就越多。
因此在所有的线性组合中所选取的第1个主成分的方差最大。
这时如果第一个主成分不足以完全代表原来p个指标的信息,再选取第2个线性组合,即第2个主成分。
生物医学研究的统计方法之二十因子分析
特殊因子,表示原始变量不能被 因子解释的部分。
2021年3月11日3时29分
8
生物医学研究的统计方法
因子分析数学模型
xi ai1 f1 ai2 f2 aim fm i
可测变量(measured variable)
潜在因子(latent variable),共性因子 (common factor)
观测指标间存在相关性,是受某些不可 观测的潜在因素的影响造成的. 如: 学生的语文,英语成绩相关,是受其语 言能力的影响,学生的数学,物理化学 成绩相关,是受其逻辑推理能力的影响 。
2021年3月11日3时29分
4
生物医学研究的统计方法
变量的可测性
可测变量(measured variable):可以直接观察或测 量而得到的变量。 潜在变量(latent variable):不能或不易直接观测得 到的变量。这种变量往往是根据某种理论假设的, 所以也称为理论变量(theoretical variable)。
2021年3月11日3时29分
23
生物医学研究的统计方法
主成分分析法
因子模型(全分量模型)表达-主成分标准化变换
x1 x2 ... xp
a11 a12
a1 p
1 1
1
a21 2 a22 2
a2 p 2
a p1
p
C1
/
1
...
ap2
p
C2
/ ...
2
a pp
p
C
p
/
p
2021年3月11日3时29分
15
生物医学研究的统计方法
因子分析的基本步骤
医学统计学--主成分分析及因子分析(第20章)
2019/1/25
医学统计学
30
1.主成分个数的选取
3很接近于1;
3 与2的贡献率相差不大,为25%左右,
若舍去3不合理。
取前三个主成分。
2019/1/25
医学统计学
31
2.列出主成分表达式
Z1 0.699964 X1 0.689798 X2 0.087939 X3 0.162777 X4 Z 2 0.095010 X1 0.283647 X2 0.904159 X3 0.304983 X4 Z 3 0.240049 X1 0.058463 X2 0.270314 X3 0.930532 X4
相关矩阵的特征值 Difference 0.624716 0.112189 0.774481 Proportion Cumulative 0.429563 0.273384 0.245337 0.051716 0.42956 0.70295 0.94828 1.00000
2019/1/25
医学统计学
Z1为急性炎症成分(X1转氨酶、X2肝大指数) Z2为慢性炎症成分(X3硫酸锌浊度 ) Z3为癌变成分(X4甲胎球蛋白 )
2019/1/25 医学统计学 32
3.求出因子载荷阵
表 20-6 X1 Z1 Z2 Z3 Z4
2019/1/25
qij i aij
因子载荷阵 X2 0.90420 -0.29662 0.05792 0.30180
15
X11 X21 Xn1
(一)主成分的求法 1. 对各原始指标值进行标准化
X
' ij
X ij X j Sj
j 1, 2 , , m
为了方便,仍用Xij表示Xij’。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2019/1/25
医学统计学
3
一、基本思想
数据的降维、数据的解释 将原来众多具有一定相关性的指标,组 合成一组新的相互无关的综合指标。 从中选取几个较少的综合指标尽可能多 的反映原来众多指标的信息。 这种既减少了指标的数目又抓住了主要矛 盾的做法有利于问题的分析和处理。
2019/1/25 医学统计学 4
例
1 2 140.0 141.6 76.0 76.2 36.3 31.4 32.0 29.0 23.0 22..0 16.1 15.6 61.1 60.6 38.7 38.8 32.4 32.5 23.1 21.8 71.3 65.7 41.8 41.7 31.6 29.0 22.3 19.8 20.5医学统计学 17.5
第20章
主成分分析 与因子分析
Principal Components Analysis & Factor Analysis
第二军医大学卫生统计学教研室 张罗漫
2019/1/25 医学统计学 1
讲课内容:
第一节 主成分分析
第二节 因子分析
2019/1/25
医学统计学
2
第一节
主成分分析
Principal Components Analysis
某地 208 名 14 岁男中学生 15 项形态指标测试结果
指标、单位
身高 (X1) cm 坐高 (X2) cm 体重 (X3) kg 肩宽 (X4) cm 骨盆宽 (X5) cm 手长 (X6) cm 上肢长 (X7) cm 小腿加足高 (X8) cm 小腿长 (X9) cm 足长 (X10) cm 胸围 (X11) cm 大腿围 (X12) cm 小腿围 (X13) cm 上臂紧张围 (X14) cm 2019/1/25(X15) cm 上臂放松围
2019/1/25 医学统计学 7
二、数学模型及几何意义
Z1 a11 X1 a12 X 2 a1m Xm Z 2 a 21 X1 a 22 X 2 a 2m Xm Z m am1 X1 am 2 X 2 amm Xm
2019/1/25 医学统计学
2019/1/25
医学统计学
10
第二主成分
Z 2 a 21 X1 a 22 X 2 a 2m X m a
2 21
a
2 22
a
2 2m
1
Z1与Z 2无关,互相垂直: a 21a11 a 22 a12 a 2 m a1m 0 Var ( Z 2 ) 在所有Zi中为第2大。
医学统计学
3. 求出矩阵R的全部特征值(eigenvalue) i,
8
Z=AX
Z1 Z2
┇
a11
a12 a22
┇
… … … …
a1m a2m
┇
X1 X2
┇
=
a21
┇
Zm
am1
am2
amm
Xm
2019/1/25
医学统计学
9
第一主成分
Z1 a11 X1 a12 X2 a1m Xm
a a a
2 11 2 12
2 1m
1
Var (Z1 ) 在所有Zi中最大
15
X11 X21 Xn1
(一)主成分的求法 1. 对各原始指标值进行标准化
X
' ij
X ij X j Sj
j 1, 2 , , m
为了方便,仍用Xij表示Xij’。
2019/1/25
医学统计学
16
标准化后的数据矩阵
X=
X11 X12 X1m X 21 X22 X2m X n1 Xn2 Xnm
号
…… …… …… …… …… …… …… …… …… …… …… …… …… …… …… …… 208 176.6 89.7 57.7 37.0 26.5 19.0 75.8 48.8 42.0 26.6 79.0 49.0 35.5 24.0 22.0
5
如何利用这些指标对每一儿童的生长发育 作出正确评价? 仅用单一指标: 结论片面; 没有充分利用原有数据信息。 利用所有指标: 各指标评价的结论可能不一致,使综合 评价困难; 工作量大。
医学统计学
2019/1/25
17
2. 求出X1 , X2 , … , Xm 的相关矩阵R
r11 r21 R=Cov(X) = r m1
2019/1/25
r12 r1m r22 r2m rm2 rmm
医学统计学
18
( X X)(X X) n 1 ( X X)(Y Y ) n 1
2019/1/25 医学统计学 6
找出几个综合指标(长度、围度、特体),这 些综合指标是原始指标的线性组合,既保留 了原始指标的信息,且互不相关。
各综合指标提供的“信息”量大小用其方差 来衡量。 衡量一个指标的好坏除了正确性与精确性外, 还必须能充分反映个体间的变异,一 项指标在个体间的变异越大,提供的信息 量越多。
-2
13
相关 变异
Z2
2
2
Z1
1
1
0
-1
ቤተ መጻሕፍቲ ባይዱ-1
-2
2019/1/25 医学统计学
-2
14
三、主成分的求法及性质
表 20-1 样品号 X1 1 2 n
2019/1/25
主成分分析的原始数据表 观 X2 X12 X22 Xn2
医学统计学
测
指
标 Xm X1m X2m Xnm
…… 理论上主成分个数最多为m个(指标个数) 实际工作中确定的主成分个数总是小于m个
2019/1/25 医学统计学 11
相关 变异
X2
2
1
-2
-1
0
1
2
X1
-1
-2
2019/1/25 医学统计学 12
X2
Z2
2
2 2
Z1
1
1
1
-2
-1
0
1
2
X1
-1 -1 -1
-2 -2
2019/1/25 医学统计学
协方差
l XY r Pearson 相关系数 2 2 l XX l YY ( X X ) ( Y Y )
( X X)(Y Y )
r
( X X) ( X X ) 2
(Y Y) ( Y Y ) 2
标准化后的协方差
19
2019/1/25
X X Y Y 1 r S n1 S X Y