第8章 相关分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第 8 章 相关分析
8.1 相关分析的理论与方法
社会经济现象总体数量上所存在的依存关系有两种不同的类型,一种是函数关系,一种
是相关关系。函数关系是指当某一变量的数值确定之后,另一个变量的数值也完全随之而确定了。例如电路中的欧姆定律表述了电压、电阻和电流之间的关系:电压=电流×电阻,若已知其中两个变量的值,则另一个变量的值就被唯一确定了。
相关关系是不完全确定的随机关系。在相关关系的情况下,当一个或几个相互联系的变量取一定的值时,与之相应的另一变量的值虽然不确定,但它仍然按某种规律在一定的范围内变化。例如,商品需求与商品价格之间的关系、投资额与国民收入之间的关系、得病率与性别的关系等等。
按照数据度量尺度的不同,相关分析的方法也不同。连续变量之间的相关性常用Pearson 简单相关系数来测定;定序变量的相关性常用Spearman 秩相关系数或Kendall 秩相关系数来测定;而定类变量的相关分析则要使用列联表分析方法。
8.1.1 连续变量的相关分析
1. Pearson 简单相关系数
对于像投资额、国民收入等连续变量之间的相关性分析常用Pearson 简单相关系数来测定,其基本公式如下:
2xy
x y
r σσσ=
其中,2
xy σ 为变量x 和的协方差,y x σ和y σ分别为变量x 和的标准差。 y Pearson 简单相关系数有如下的特征:
r
1r ≤ ,r 越大表示两变量相关性越强,r 越小表示两变量相关性越弱 0r =时,表示两变量不存在线性相关关系 1r =时,表示两变量完全正相关
1r =−时,表示两变量完全负相关
2. Pearson 简单相关系数的检验
在实际分析中,相关系数大都是利用样本数据计算的,因而带有一定的随机性,因此也需要对相关关系的显著性进行检验,该检验的原假设为两总体相关系数等于0。
数学上可以证明,在原假设得到满足的条件下,有下面的t 统计量:
t =
该统计量服从自由度为的t 分布。
2n −
8.1.2 定序变量的相关分析
对于定序变量的相关性分析,例如分析勤奋程度与成就高低的关系、信用等级与贷款收回情况的关系等等都不能用简单相关系数来测定,而要用秩相关的非参数方法来实现,即不使用变量的原始数据,而使用原始数据的秩来计算相关系数。
1. Spearman 秩相关系数
假设有容量为n 的由x 和两个变量构成的随机样本。
分别计算每个观测关于变量y x 和的秩变量和,用y i u i v (1,)=L ,2i n i i d u v i =−表示第i 个样本对应于两变量的秩之差,则
Spearman 秩相关系数的公式如下:
)
1(612
1
2−−
=∑=n n d r n
i i s
与Pearson 简单相关系数一样,Spearman 秩相关系数的取值也处于-1和1之间。显然,
和之间的差别越大,则就越大。若所有的和都相等,则,。
i u i v 2
1
n i i d =∑i u i v 21
0n
i i d ==∑1s r =计算出Spearman 秩相关系数后,要对该系数进行检验,此时的原假设为:两变量不相关。在满足原假设的前提下,若是小样本,则服从Spearman 分布;在大样本下,统计量s r s
r z r =近似服从标准正态分布。
2. Kendall 秩相关系数
Kendall 秩相关系数与Spearman 秩相关系数类似,都是利用变量的秩进行计算,只是计算方式不同。
首先计算每个观测关于变量x 和的秩变量u 和v ,将n 个观测按变量y x 的升序排序,则n 个观测关于变量x 和的秩如下:
y x 的秩变量u : 1 2 …… n
y 的秩变量: ……
v 1v 2v n v 设在的后面有1v 1R 个秩大于,在的后面有1v 2v 2R 个秩大于,……,在后面有2v 1n v −1n R −个秩大于,令
1n v −12n 1R R R R −=+++L
显然,变量x 和y 相关性越强,则R 越大。Kendall 秩相关系数按如下公式求得:
41(1)
k R
r n n =
−−
同样,Kendall 秩相关系数的绝对值不超过1。
为了说清楚变量之间具有联系的理由,也应对Kendall 秩相关系数进行显著性检验。此时的原假设同样为两变量不相关。在满足原假设的前提下,若是小样本,则服从Kendall 分布;在大样本下,统计量k
r z =
近似服从标准正态分布。
8.1.3 定类变量的相关分析
在7.2节我们曾介绍了利用2
χ统计量对单一随机样本的分布进行检验的方法。卡方检验还有一个重要的用途就是对离散变量的相关性进行检验,这种方法有时也叫作“列联表分析”。列联表是多行多列纵横交错所形成的一个表体。我们以例子说明列联表的形式以及如何将定类变量的相关性检验化为列联表并进行检验分析的程序。
抽样调查某地区500名待业人员,这些人员中文化程度为高中及以上的有104人(男44人),初中的有96人(男36人),小学及以下的有300人(男140人)。试检验此调查结果能否说明待业人员中的文化程度与性别是相互独立的。
根据调查结果,我们可将数据整理成列联表:
表 8-1 待业人员文化程度与性别列联表
列联表的单元格中,上面的数字给出样本关于两变量的联合观察频数;下面括号内的数
值为对应的联合期望频数,计算方法为:
..i j
ij n n E n
×=
其中,ij E 为第一个变量取第个取值,第二个变量取第i j 个变量时的联合观察频数,为第i 行的观察频数之和,.
i n .j n 为第j 列的观察频数之和,为样本容量。
n 例如,性别为男且文化程度为高中及以上所对应的期望频数为:11220104
46500
E ×==,
其它各个单元格对应的期望频数也按同样方法计算得到。
统计量来检验两变量的相关性。
在得出对应的期望频数后,我们就可以应用Pearson 2χ