典型相关分析在STATA中的实现和案例
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第14章 典型相关分析
主成分分析和因子分析只涉及一组变量的相关关系,而典型相关分析则是研究两组变量之间的相关关系。为了研究两组变量),,,(1var 21r x x x list =和
),,,(2var 21s y y y list =之间的相互关系,采用类似于主成分分析的方法,将两组变量合成有代表性的综合指标,通过研究这两组综合指标间的相互关系,来代替这两组变量间的相互关系,这些综合指标就称为典型变量,典型变量之间的相关系数就称为典型相关。
在实际问题中,两组变量之间具有相关关系的问题很多,例如几种主要产品如猪肉、牛肉、鸡蛋的价格(作为第一组变量)和相应这些产品的销量(作为第二组变量)具有相关系数;投资性变量(如劳动者人数、货物周转量、生产建设投资等)与国民收入变量(如工农业国民收入、运输业国民收入、建筑业国民收入等)具有相关关系等。
典型相关分析研究变量之间整体的线性关系,它是将每一组变量作为一个整体来进行研究,而不是分析每一组变量内部的各个变量。所研究的两组变量可以是一组变量为自变量,而另一组变量为因变量的情况,两组变量也可以处于同等的地位,但典型相关分析要求两组变量至少是间隔尺度的。
典型相关分析是借助于主成分分析的思想,对每一组变量分别寻找线性组合,使生成的新的综合变量能代表原始变量大部分的信息,同时,与由另一组变量生成新的综合变量的相关程度最大,这样一组新的综合变量称为第一对典型相关变量,同样的方法可以找到第二对、第三对……使得各对典型相关变量互不相关,典型相关变量之间的简单相关系数称为典型相关系数。典型相关分析就是用典型相关系数衡量两组变量之间的相关性。
设两组变量varlist1和varlist2的相关系数矩阵为:
⎪⎪⎭
⎫ ⎝⎛C B B A ' 典型相关系数的平方即是对11'--=BC A B V 或1'1--=A B BC W 进行特征值分解,而对应的左侧向量即是两组变量的典型变量的线性组合。
设有m 个典型相关系数,对于原假设:两组变量没有相关关系(即检验典型相关系数的显著性),Stata 包括了四种统计量。
Wilks (1932)Λ统计量为:()∏=-=Λm
j i r 21。
Pallai (1955)迹统计量为:∑==m
i i r V 12。
Lawley-Hotelling (Lawley (1938),Hotelling (1951))迹统计量为:
∑=-=m
i i
i r r U 1
2
2
1。
Roy最大特征根统计量:即2
r。
i
14.1 典型相关估计
命令为canon。
sysuse auto,clear
canon (length weight headroom trunk) (displ mpg gear_ratio turn) canon (length weight headroom trunk) (displ mpg gear_ratio turn), coefmatrix
/* coefmatrix 输出原始系数矩阵,此为默认选项*/
canon (length weight headroom trunk) (displ mpg gear_ratio turn), stdcoef /*stdcoef 输出标准化系数矩阵,stdcoef与coefmatrix二者只能设一个*/
14.2 预测
sysuse auto,clear
canon (length weight headroom trunk) (displ mpg gear_ratio turn)
predict pu, u
/* u 计算varlist1的线性组合*/
predict pv,v
/* v 计算varlist2的线性组合*/
predict pstdu, stdu
/* stdu 计算varlist1的线性组合的标准差*/
predict pstdv,stdv
/* stdv 计算varlist2的线性组合的标准差*/
14.3 Estat
sysuse auto,clear
canon (length weight headroom trunk) (displ mpg gear_ratio turn)
estat correlations
/* varlist1和varlist2的相关系数矩阵*/
estat loadings
/*典型载荷,即各个变量与其对应的典型变量的相关系数*/
例:中国30个省市自治区农村居民收入和支出的典型相关分析。
反映农村居民收入的变量:x1——农村居民家庭人均工资性收入;x2——农村居民家庭人均家庭经营收入;x3——农村居民家庭人均财产性收入;x4——农村居民家庭人均转移性收入。
反映农村居民生活费支出的变量:x5——农村居民家庭人均食品支出;x6——农村居民家庭人均衣着支出;x7——农村居民家庭人均居住支出;x8——农村居民家庭人均家庭设备及服务支出;x9——农村居民家庭人均交通和通讯支出;x10——农村居民家庭人均文教、娱乐用品及服务支出;x11——农村居民家
注:资料来自2009年《中国统计年鉴》
程序:
clear
*定义变量的标签
label var area 省份
label var x1 "农村居民家庭人均工资性收入" label var x2 "农村居民家庭人均家庭经营收入" label var x3 "农村居民家庭人均财产性收入" label var x4 "农村居民家庭人均转移性收入" label var x5 "农村居民家庭人均食品支出" label var x6 "农村居民家庭人均衣着支出"