典型相关分析在STATA中的实现和案例

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第14章 典型相关分析

主成分分析和因子分析只涉及一组变量的相关关系,而典型相关分析则是研究两组变量之间的相关关系。为了研究两组变量),,,(1var 21r x x x list =和

),,,(2var 21s y y y list =之间的相互关系,采用类似于主成分分析的方法,将两组变量合成有代表性的综合指标,通过研究这两组综合指标间的相互关系,来代替这两组变量间的相互关系,这些综合指标就称为典型变量,典型变量之间的相关系数就称为典型相关。

在实际问题中,两组变量之间具有相关关系的问题很多,例如几种主要产品如猪肉、牛肉、鸡蛋的价格(作为第一组变量)和相应这些产品的销量(作为第二组变量)具有相关系数;投资性变量(如劳动者人数、货物周转量、生产建设投资等)与国民收入变量(如工农业国民收入、运输业国民收入、建筑业国民收入等)具有相关关系等。

典型相关分析研究变量之间整体的线性关系,它是将每一组变量作为一个整体来进行研究,而不是分析每一组变量内部的各个变量。所研究的两组变量可以是一组变量为自变量,而另一组变量为因变量的情况,两组变量也可以处于同等的地位,但典型相关分析要求两组变量至少是间隔尺度的。

典型相关分析是借助于主成分分析的思想,对每一组变量分别寻找线性组合,使生成的新的综合变量能代表原始变量大部分的信息,同时,与由另一组变量生成新的综合变量的相关程度最大,这样一组新的综合变量称为第一对典型相关变量,同样的方法可以找到第二对、第三对……使得各对典型相关变量互不相关,典型相关变量之间的简单相关系数称为典型相关系数。典型相关分析就是用典型相关系数衡量两组变量之间的相关性。

设两组变量varlist1和varlist2的相关系数矩阵为:

⎪⎪⎭

⎫ ⎝⎛C B B A ' 典型相关系数的平方即是对11'--=BC A B V 或1'1--=A B BC W 进行特征值分解,而对应的左侧向量即是两组变量的典型变量的线性组合。

设有m 个典型相关系数,对于原假设:两组变量没有相关关系(即检验典型相关系数的显著性),Stata 包括了四种统计量。

Wilks (1932)Λ统计量为:()∏=-=Λm

j i r 21。

Pallai (1955)迹统计量为:∑==m

i i r V 12。

Lawley-Hotelling (Lawley (1938),Hotelling (1951))迹统计量为:

∑=-=m

i i

i r r U 1

2

2

1。

Roy最大特征根统计量:即2

r。

i

14.1 典型相关估计

命令为canon。

sysuse auto,clear

canon (length weight headroom trunk) (displ mpg gear_ratio turn) canon (length weight headroom trunk) (displ mpg gear_ratio turn), coefmatrix

/* coefmatrix 输出原始系数矩阵,此为默认选项*/

canon (length weight headroom trunk) (displ mpg gear_ratio turn), stdcoef /*stdcoef 输出标准化系数矩阵,stdcoef与coefmatrix二者只能设一个*/

14.2 预测

sysuse auto,clear

canon (length weight headroom trunk) (displ mpg gear_ratio turn)

predict pu, u

/* u 计算varlist1的线性组合*/

predict pv,v

/* v 计算varlist2的线性组合*/

predict pstdu, stdu

/* stdu 计算varlist1的线性组合的标准差*/

predict pstdv,stdv

/* stdv 计算varlist2的线性组合的标准差*/

14.3 Estat

sysuse auto,clear

canon (length weight headroom trunk) (displ mpg gear_ratio turn)

estat correlations

/* varlist1和varlist2的相关系数矩阵*/

estat loadings

/*典型载荷,即各个变量与其对应的典型变量的相关系数*/

例:中国30个省市自治区农村居民收入和支出的典型相关分析。

反映农村居民收入的变量:x1——农村居民家庭人均工资性收入;x2——农村居民家庭人均家庭经营收入;x3——农村居民家庭人均财产性收入;x4——农村居民家庭人均转移性收入。

反映农村居民生活费支出的变量:x5——农村居民家庭人均食品支出;x6——农村居民家庭人均衣着支出;x7——农村居民家庭人均居住支出;x8——农村居民家庭人均家庭设备及服务支出;x9——农村居民家庭人均交通和通讯支出;x10——农村居民家庭人均文教、娱乐用品及服务支出;x11——农村居民家

注:资料来自2009年《中国统计年鉴》

程序:

clear

*定义变量的标签

label var area 省份

label var x1 "农村居民家庭人均工资性收入" label var x2 "农村居民家庭人均家庭经营收入" label var x3 "农村居民家庭人均财产性收入" label var x4 "农村居民家庭人均转移性收入" label var x5 "农村居民家庭人均食品支出" label var x6 "农村居民家庭人均衣着支出"

相关文档
最新文档