SAS软件应用之主成分分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

主成分分析的方法步骤
❖ 计算主成分载荷 ❖ 第的i系个数主l成 ij的分乘Z积i的特征值的平方根与第j原始指标Xj
qij i lij
❖ 为因子载荷。由因子载荷所构成的矩阵为因子载 荷阵。实际数,因子载荷qij就是第i主成分Zi与第j 原始指标Xj之间的相关系数,它反映了主成分Zi与 原始指标Xj之间联系的密切程度与作用方向。
概述
❖ 主成份分析的基本思想就是将彼此相关的一组指标 变量转化为彼此独立的一组新的指标变量,并用其 中较少的几个新指标变量就能综合反应原多个指标 变量中所包含的主要信息,符合专业含义。何为主 成分?简而言之,主成分实际上就是由原变量X1~ Xm线性组合出来的m个互不相关、且未丢失任何信 息的新变量,也称为综合变量。多指标的主成分分 析常被用来寻找判断某种事物或现象的综合指标, 并给综合指标所蕴藏的信息以恰当解释,以便更深 刻地揭示事物内在的规律。
主成分分析的方法步骤
❖ 计算主成分得分 ❖ 如果标准化指标变量 X1,X2,,Xk的第i个主成分是:
Z i li X li1 X 1 li2 X 2 liX kk
(i 1,2,,k)
主成分分析的方法步骤
❖ 确定主成分的个数
❖ 当得到了k个主成分后,要根据确定主成分个数的准则和 主成分的实际意义来确定主成分的个数。一般说,确定主 成分个数的准则有两个:①以累积贡献率来确定:当前P 个主成分的累积贡献率达到某一特定值时(一般采用 70%~85%为准则),则保留前P个主成分。②根据特征值 大小来确定,一般地,取特征值大于或等于1为准则。若 有s个特征值大于或等于1,那么就可以确定主成分的个数 为s个。一般可以将两种确定主成分个数的方法结合起来, 选出有实际意义的主成分。
k1
n
n
(xki xi )2 (xkj xj )2
k1
k1
主成分分析的方法步骤
❖ 计算相关矩阵的特征值和特征值所对应的特 征向量:
❖ 求主成分的问题,实际上就是要求出标准化 指标变量X的协方差矩阵Cov(X)的特征 值和特征向量。X的协方差矩阵为:
Va(rZ1)
0
Co(vX)LL
wk.baidu.com
Va(rZ2)
第16章 主成分分析
中国疾病预防控制中心
概述
❖ 科学研究所涉及的课题往往比较复杂,是因为影响客观事物 的因素多,需要考察的变量多。例如,糖尿病、动脉硬化等 疾病的病因是多种多样的,收集的资料中包含的信息是丰富 多彩的。再如,在心理学研究中,描述儿童气质的指标可以 有9个,描述儿童活动能力的指标可以有6个,;在临床医学 研究中,描述儿童生长发育的的可以有12个指标,鉴别阑尾 炎病型的可以有27个指标。然而,重叠的、低质量的信息越 多,越不利于医生作出诊断。指标较多时,给资料分析带来 很多麻烦,增加了分析问题的复杂性和难度。例如,在线性 回归分析中,要求模型中的自变量是相互独立的,否则,估 计的结果是不准确的,甚至是相反的结论,产生误导。
主成分分析简介
❖ 主成分分析法是一种数学变换的方法, 它把给定的 一组相关变量通过线性变换转成另一组不相关的变 量,这些新的变量按照方差依次递减的顺序排列。 在数学变换中保持变量的总方差不变,使第一变量 具有最大的方差,称为第一主成分,第二变量的方 差次大,并且和第一变量不相关,称为第二主成分。 依次类推,I个变量就有I个主成分。
0
Va(rZk)
主成分分析的方法步骤
❖ 求得k个非负特征值 i(i1,2,,k) ,将这些特 征值按从小到大的顺序排列为:
12k0
❖ 再由
l(iR li 11I)li
0 i1,2,,k
❖ 解得每一特征值对应的特征向量,从而求得
各主成分:
Z i li X li1 X 1 li2 X 2 liX kk
❖ 假设有k个指标x1,x2,…,xk,每一个指标有n个 观测值,它们的标准化指标变量是 X1,X2,,Xk ,
主成分分析的方法步骤
❖ 对原始指标数据进行标准化变换: ❖ 将原始数X据ij标xi准jsj x化j ,,j然1,2,后,利k 用标准化的数据
计算主成分。X为标准化后的数据矩阵,则:
X11 X12 X X 21 X 22
X
n1
X n2
X1k
X
2k
X
n
k
主成分分析的方法步骤
❖ 计算相关系数矩阵:
r11 r12 r1k 1 r12 r1k RCo(Xv)r21 r22 r2kr21 1 r2k
rk1 rk2
rk
k
rk1
rk2
1
❖ 其中,
rij
n
(xki xi )(xkj xj )
主成分分析的方法步骤
❖ 计算主成分贡献率及累计贡献率
❖ 各主成分互不相关,即的相关系数: ❖ 于rZ 是i,Zj,各C 主(o Z 成C i,v 分Zi(o )Z 间iC ,v Z 的j)(o Z 相j,v 关Zj)系数0(i矩j阵) 为单位矩
阵。
❖ 一般地,主成分Zi的贡献率为:
i i
k
i
k
i1
❖ 主成分分析是把原来多个变量划为少数几个综合指 标的一种统计分析方法,是一种降维处理技术。
主成分分析的方法步骤
❖ 主成分分析的过程,就是确定原来变量xj(j1,2,,k) 在各主成分zi(i1,2,,k)上的载荷lij。
❖ 从主成分分析的基本原理和数学模型可以看出,主 成分分析的任务是估计主成分,确定主成分的个数, 解释主成分的实际意义和计算主成分得分。
概述
❖ 在大部分实际问题中,变量之间是有一定的相关性的,人们 自然希望找到较少的几个彼此不相关的综合指标尽可能多地 反映原来众多变量的信息。比如描述儿童生长发育的指标中, 身高、腿长和臂长这三个指标可能是相关的,而胸围、大腿 围和臂围这三个围度指标也会有一定的相关性。如果分别用 每一个指标对儿童的生长发育做出评价,那么这种评价就是 孤立的、片面的,而不是综合的。仅选用几个“重要的”或 “有代表性”的指标来评价,就失去了许多有用的信息,容 易得出片面的结论。所以,我们需要一种综合性的分析方法, 既可减少指标变量的个数,又尽量不损失原指标变量所包含 的信息,对资料进行全面的综合分析。主成分分析正是适应 这一要求产生的,是解决这类题的理想工具。
相关文档
最新文档