第13章 主成分分析和因子分析 stata统计分析与应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Page 17
STATA从入门到精通
因子分析的数学模型
原始的p个变量表达为k个因子的线性组合变量 ,x p,要寻找的k个因子(k<p) 设p个原始变量为 x1,x 2, 为 f1,f 2, ,f k ,主成分和原始变量之间的关系表示为
aij为第个i变量与第k个 x1 a11 f1 a12 f 2 a1k f k 1 系数 因子之间的线性相关系数, x a f a f a f 反映变量与因子之间的相 2 21 1 22 2 2k k 2 关程度,也称为载荷 (loading) 。由于因子出现 在每个原始变量与因子的 x p a p1 f1 a p 2 f 2 a pk f k p 线性组合中,因此也称为 公因子。 为特殊因子,代
0.822 0.709
0.284 0.983 7.144 -2.376 2.101 0.058
0.258 0.143
0.107 0.209 0.367 0.251 -0.148 0.113
Page 8
0.009 0.006
0.003 0 0.025 -0.005 0.012 0.02
0.01 0.006
STATA从入门到精通
Stata的输出结果
estat smc
变量之间的存在较强的相关关系,适合作主成分分析
Page 9
STATA从入门到精通
Stata的输出结果 (选择主成分)
该表是选则主成分的主要依据
Page 10
STATA从入门到精通
根据什么选择主成分?
“Initial Eigenvalues”(初始特征根) 实际上就是本例中的9个主轴的长度 特征根反映了主成分对原始变量的影响程度,表示 引入该主成分后可以解释原始变量的信息 特征根又叫方差,某个特征根占总特征根的比例称 为主成分方差贡献率 p 设特征根为,则第i个主成分的方差贡献率为 i i
主成分的概念由Karl Pearson在1901年提出 考察多个变量间相关性一种多元统计方法 研究如何通过少数几个主成分(principal component)来 解释多个变量间的内部结构。即从原始变量中导出少数 几个主分量,使它们尽可能多地保留原始变量的信息, 且彼此间互不相关 主成分分析的目的:数据的压缩;数据的解释 常被用来寻找判断事物或现象的综合指标,并对综 合指标所包含的信息进行适当的解释
因子的方差贡献率
2 g2 a 2, ,p) ij (i 1, j j 1 k
第 j 个公因子对变量 xi 的 提供的方差总和,反映 第 j个公因子的相对重要 程度
STATA从入门到精通
Page 19
Stata命令
factor
estat screeplot scoreplot、loadingplot rotate
主成分分析的数学模型
Page 5
aij 为第 i 个主成分 yi 和原 来的第 j 个变量 xj 之间的 线性相关系数,称为载 荷(loading)。比如,a11 表示第1主成分和原来的 第1个变量之间的相关系 数, a21 表示第 2 主成分 和原来的第1个变量之间 的相关系数
STATA从入门到精通
公司股本扩张能力指标
每股净资产 每股公积金 总资产增长率
禾嘉股份 亚盛集团
冠农股份 St中农 敦煌种业 新农开发 香梨股份 新赛股份
0.063 -0.008
0.438 -0.02 0.112 0.277 0.107 0.82
0.232 0.161
0.755 -0.421 -0.158 0.041 -0.054 0.194
predict
Page 20
STATA从入门到精通
本章结束,谢谢观看!
21
ຫໍສະໝຸດ Baidu
Page 13
STATA从入门到精通
怎样解释主成分?
主成分的因子载荷矩阵
表1中的每一列表示一个主成分作为原来变量线性组 合的系数,也就是主成分分析模型中的系数aij 比如,第一主成分所在列的系数 -0.0364 表示第 1 个 主成分和原来的第一个变量 (ROA) 之间的线性相关 系数。这个系数越大,说明主成分对该变量的代表 性就越大
主成分分析的步骤
对原来的p个指标进行标准化,以消除变量在水平和量纲 上的影响 根据标准化后的数据矩阵求出相关系数矩阵 求出协方差矩阵的特征根和特征向量 确定主成分,并对各主成分所包含的信息给予适当的解 释
Page 6
STATA从入门到精通
Stata命令
pca、pcamat
estat screeplot scoreplot、loadingplot rotate
i 1
比如,第一个主成分的特征根为3.54354,占总特征 根的的比例 ( 方差贡献率 ) 为 39.37% ,这表示第一个 主成分解释了原始9个变量39.37%的信息,可见第一 个主成分对原来的9个变量解释的还不是很充分
Page 11
STATA从入门到精通
根据什么选择主成分?
根据主成分贡献率 一般来说,主成分的累计方差贡献率达到 80%以上的 前几个主成分,都可以选作最后的主成分 比如表中前3个主成分的累计方差贡献率为78.13% 根据特特征根的大小 一般情况下,当特征根小于1时,就不再选作主成分 了,因为该主成分的解释力度还不如直接用原始变 量解的释力度大 比如表中除前 3 个外,其他主成分的特征根都小于 1 。所以只选择了3个主成分
predict
Page 7
STATA从入门到精通
主成分分析 (实例分析)
【例】根据2008年一季度沪深两市农业板上市公司的9项主要指标数据,
进行主成分分析,找出主成分并进行适当的解释
基本情况
公司名称
ROA
公司成长性指标
主营收入增长率 净利润增长率
公司盈利能力性指标
主营业务利润率 ROE EPS
Page 3
STATA从入门到精通
主成分分析的基本思想
(以两个变量为例)
对这两个相关变量所携带的信息 ( 在统计上信息往往是指 数据的变异)进行浓缩处理 假定只有两个变量 x1 和 x2 ,从散点图可见两个变量存在相 关关系,这意味着两个变量提供的信息有重叠
如果把两个变量用一 个变量来表示,同时 这一个新的变量又尽 可能包含原来的两个 变量的信息,这就是 降维的过程
因子分析的数学模型
Page 18
表公因子以外的因素影响
STATA从入门到精通
因子分析的数学模型
(共同度量Communality和公因子的方差贡献率 ) 共同度量(Communality)
2 hi2 aij ( j 1, 2, ,k ) i 1 p
变量 xi 的信息能够被 k个 公因子解释的程度,用 k个公因子对第i个变量xi 的方差贡献率表示
Page 15
STATA从入门到精通
13.2 因子分析
13.2.1
13.2.2 13.2.3 13.2.4
因子分析的基本原理
因子分析的数学模型 因子分析的步骤 因子分析的Stata命令
Page 16
STATA从入门到精通
什么是因子分析? (factor analysis)
因子分析可以看作是主成分分析的推广和扩展,但它对 问题的研究更深入、更细致一些。实际上,主成分分析 可以看作是因子分析的一个特例 简言之,因子分析是通过对变量之间关系的研究,找出 能综合原始变量的少数几个因子,使得少数因子能够反 映原始变量的绝大部分信息,然后根据相关性的大小将 原始变量分组,使得组内的变量之间相关性较高,而不 同组的变量之间相关性较低。因此,因子分析属于多元 统计中处理降维的一种统计方法,其目的就是要减少变 量的个数,用少数因子代表多个原始变量
STATA 从入门到精通
第13章 主成分分析和因子分析
13.1 主成分分析
13.1.1
13.1.2 13.1.3 13.1.4
主成分分析的基本原理
主成分分析的数学模型 主成分分析的步骤 主成分分析的Stata命令
Page 2
STATA从入门到精通
什么是主成分分析?
(principal component analysis)
0.004 0 0.077 -0.016 0.03 0.101
1.11 1.144
1.621 1.565 3.096 3.46 2.51 3.83
0.05 0.006
0.421 0.757 1.988 1.86 1.516 2.285
0 0.047
0.096 -0.206 -0.057 0.392 -0.234 0.392
Page 12
STATA从入门到精通
根据什么选择主成分? (Scree Plot)
Stata 还提供了一个更为 直观的图形工具来帮助选 择主成分,即碎石图 (Scree Plot) 从碎石图可以看到 9 个主 轴长度变化的趋势 实践中,通常结合具体情 况,选择碎石图中变化趋 势出现拐点的前几个主成 分作为原先变量的代表, 该例中选择前 3 个主成分 即可
Page 4
STATA从入门到精通
主成分分析的数学模型
数学上的处理是将原始的 p个变量作线性组合,作为新的 变量 ,x p ,新的变量(即主成分)为 设p个原始变量为 x1,x 2, y1,y 2, ,y p ,主成分和原始变量之间的关系表示为
y1 a11 x1 a12 x 2 a1 p x p y 2 a 21 x1 a 22 x 2 a 2 p x p y a x a x a x p1 1 p2 2 pp p p
Page 14
STATA从入门到精通
怎样解释主成分? (Loading Plot)
载荷图(Loading Plot)直观显示主 成分对原始9变量的解释情况 图中横轴表示第一个主成分与原始 变量间的相关系数;纵轴表示第二 个主成分与原始变量之间的相关系 数 每一个变量对应的主成分载荷就对 应坐标系中的一个点 第一个主成分很充分地解释了原始 的后4个变量(与每个原始变量都有 较强的正相关关系 ) ,第二个主成 分 则 较 好 地 var2,var3,var5,var6 这2个变量(与它们的相关关系较高 ),而与其他变量的关系则较弱(相 关系数的点靠近坐标轴)