第13章 主成分分析和因子分析 stata统计分析与应用.
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
predict
Page 7
STATA从入门到精通
主成分分析 (实例分析)
【例】根据2008年一季度沪深两市农业板上市公司的9项主要指标数据,
进行主成分分析,找出主成分并进行适当的解释
基本情况
公司名称
ROA
公司成长性指标
主营收入增长率 净利润增长率
Βιβλιοθήκη Baidu
公司盈利能力性指标
主营业务利润率 ROE EPS
0.004 0 0.077 -0.016 0.03 0.101
1.11 1.144
1.621 1.565 3.096 3.46 2.51 3.83
0.05 0.006
0.421 0.757 1.988 1.86 1.516 2.285
0 0.047
0.096 -0.206 -0.057 0.392 -0.234 0.392
STATA 从入门到精通
第13章 主成分分析和因子分析
13.1 主成分分析
13.1.1
13.1.2 13.1.3 13.1.4
主成分分析的基本原理
主成分分析的数学模型 主成分分析的步骤 主成分分析的Stata命令
Page 2
STATA从入门到精通
什么是主成分分析?
(principal component analysis)
i 1
比如,第一个主成分的特征根为3.54354,占总特征 根的的比例 ( 方差贡献率 ) 为 39.37% ,这表示第一个 主成分解释了原始9个变量39.37%的信息,可见第一 个主成分对原来的9个变量解释的还不是很充分
Page 11
STATA从入门到精通
根据什么选择主成分?
根据主成分贡献率 一般来说,主成分的累计方差贡献率达到 80%以上的 前几个主成分,都可以选作最后的主成分 比如表中前3个主成分的累计方差贡献率为78.13% 根据特特征根的大小 一般情况下,当特征根小于1时,就不再选作主成分 了,因为该主成分的解释力度还不如直接用原始变 量解的释力度大 比如表中除前 3 个外,其他主成分的特征根都小于 1 。所以只选择了3个主成分
Page 4
STATA从入门到精通
主成分分析的数学模型
数学上的处理是将原始的 p个变量作线性组合,作为新的 变量 ,x p ,新的变量(即主成分)为 设p个原始变量为 x1,x 2, y1,y 2, ,y p ,主成分和原始变量之间的关系表示为
y1 a11 x1 a12 x 2 a1 p x p y 2 a 21 x1 a 22 x 2 a 2 p x p y a x a x a x p1 1 p2 2 pp p p
Page 12
STATA从入门到精通
根据什么选择主成分? (Scree Plot)
Stata 还提供了一个更为 直观的图形工具来帮助选 择主成分,即碎石图 (Scree Plot) 从碎石图可以看到 9 个主 轴长度变化的趋势 实践中,通常结合具体情 况,选择碎石图中变化趋 势出现拐点的前几个主成 分作为原先变量的代表, 该例中选择前 3 个主成分 即可
主成分分析的数学模型
Page 5
aij 为第 i 个主成分 yi 和原 来的第 j 个变量 xj 之间的 线性相关系数,称为载 荷(loading)。比如,a11 表示第1主成分和原来的 第1个变量之间的相关系 数, a21 表示第 2 主成分 和原来的第1个变量之间 的相关系数
STATA从入门到精通
0.822 0.709
0.284 0.983 7.144 -2.376 2.101 0.058
0.258 0.143
0.107 0.209 0.367 0.251 -0.148 0.113
Page 8
0.009 0.006
0.003 0 0.025 -0.005 0.012 0.02
0.01 0.006
STATA从入门到精通
Stata的输出结果
estat smc
变量之间的存在较强的相关关系,适合作主成分分析
Page 9
STATA从入门到精通
Stata的输出结果 (选择主成分)
该表是选则主成分的主要依据
Page 10
STATA从入门到精通
根据什么选择主成分?
“Initial Eigenvalues”(初始特征根) 实际上就是本例中的9个主轴的长度 特征根反映了主成分对原始变量的影响程度,表示 引入该主成分后可以解释原始变量的信息 特征根又叫方差,某个特征根占总特征根的比例称 为主成分方差贡献率 p 设特征根为,则第i个主成分的方差贡献率为 i i
主成分的概念由Karl Pearson在1901年提出 考察多个变量间相关性一种多元统计方法 研究如何通过少数几个主成分(principal component)来 解释多个变量间的内部结构。即从原始变量中导出少数 几个主分量,使它们尽可能多地保留原始变量的信息, 且彼此间互不相关 主成分分析的目的:数据的压缩;数据的解释 常被用来寻找判断事物或现象的综合指标,并对综 合指标所包含的信息进行适当的解释
主成分分析的步骤
对原来的p个指标进行标准化,以消除变量在水平和量纲 上的影响 根据标准化后的数据矩阵求出相关系数矩阵 求出协方差矩阵的特征根和特征向量 确定主成分,并对各主成分所包含的信息给予适当的解 释
Page 6
STATA从入门到精通
Stata命令
pca、pcamat
estat screeplot scoreplot、loadingplot rotate
公司股本扩张能力指标
每股净资产 每股公积金 总资产增长率
禾嘉股份 亚盛集团
冠农股份 St中农 敦煌种业 新农开发 香梨股份 新赛股份
0.063 -0.008
0.438 -0.02 0.112 0.277 0.107 0.82
0.232 0.161
0.755 -0.421 -0.158 0.041 -0.054 0.194
Page 3
STATA从入门到精通
主成分分析的基本思想
(以两个变量为例)
对这两个相关变量所携带的信息 ( 在统计上信息往往是指 数据的变异)进行浓缩处理 假定只有两个变量 x1 和 x2 ,从散点图可见两个变量存在相 关关系,这意味着两个变量提供的信息有重叠
如果把两个变量用一 个变量来表示,同时 这一个新的变量又尽 可能包含原来的两个 变量的信息,这就是 降维的过程