非参数统计学讲义(第五章)相关与回归

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

非参数统计学讲义

主讲:统计系 袁靖

第五章 相关和回归

§1 引言

所谓相关,是指两组或两组以上观察结果之间的连带性或联系。换句话说,也就是各组观察结果所反映的特性之间有关系。如几个亲生兄弟间的智商与出生顺序有关系,受教育程度与性别有关系,出生率X 和文盲率Y 之间的关系等等。在实际问题的研究中,人们常常想知道两组或两组以上的观察结果是否有联系,同时也想知道联系的程度如何。前面的统计检验能够在一定的显著性水平上,确定各组观察值的关系是否存在。

相关方法被用来度量两个或更多变量之间的线性关系的强度,是回归分析的基础。 在数理统计学中,我们使用相关系数定义变量X 和变量Y 之间的相关性。

)

var()var(),cov(),(Y X Y X Y X corr =

=ρ1

(0.1)

对于样本),(11Y X ,),(22Y X ,……,),(n n Y X 来说,Pearson 相关系数为

∑∑∑∑∑∑----=

----=

2

2

2

2

11

)

()())(()

()()

)((Y Y X X Y Y X X Y Y X X Y Y X X r i i i i i i n

i i n (0.2)

如果在这个样本中的n 个观察值独立,则r 是ρ的渐近无偏估计;如果它又是二元正态分布,则r 是ρ的ML 估计。

为了检验0:0=ρH ,0:1≠ρH ,可以选取统计量)2(~122

---=n t r n r

t

结论:Pearson 相关系数度量的是一种线性关系,而我们所要介绍的非参数的Spearman 秩相关系数s r 和Kendall τ相关系数实际上度量的是一种形式的相依联系,或是更广义的单调关系。因此相关的概念被推广,不仅指线性相关,而泛指相依或联系。

§2 两个样本的相关分析

一、等级相关

等级相关(Rank Correlation)也称作级序相关,用于两个至少是定序尺度测量的样本问相关程度的测定

研究背景

1

ρ度量了总体样本点在标准差线周围的聚集程度,详见笔记P38。

1.基本方法

两个样本X 、Y ,其观察数据可以配对为),(11Y X ,),(22Y X ,……,),(n n Y X 。将n x x x ,,,21 排序后评秩,其秩记作U ,与i x 相对应的秩为),,2,1(n i U i =;同样,n y y y ,,,21 排序后评秩,秩记作V ,与i y 相对应的秩为),,2,1(n i V i =。这样得到的n 对秩),(11V U ,),(22V U ,…,),(n n V U 可能每一对完全相等,也可能不等。由于每一样本都是n 个数据评秩,因此i U 与i V 的取值都是从1到n 。X 、Y 的秩可能完全一致,即对于所有的i 来说,有i U =i V ,表5—1是完全一致的评秩结果。X 、Y 的秩可能完全相反,表5—2是完全相反的评秩结果。如果X 、Y 完全相关,应该对于所有的i 有i U =i V ,即i U —i V =0。因此,i U 与i V 之差可以用来度量X 、Y 的相关程度。定义

i i i V U D -=

X 的秩 Y 的秩 1 1 2 2 …

n -1 n -1 n

n X 的秩 1 n 2 n -1 …

… n -1 2 n 1

i i i D 可正可负,直接用∑=n

i i D 1测度相关,会出现正负i D 抵消,而不能真实反映i U 与i V 差值的大小,所以宜采用

∑=n

i i D 1

2,即

∑∑==-=n

i i i n

i i V U D 1

21

2)(

(0.3)

(5.3)式的这个秩差值平方和的大小既受到n 的多少的影响,又受到两组秩不一致程度的影响,因此,采用相对的测量指标有利于说明X 、Y 的相关程度。因为∑2i D 的最大值反映X 、Y 完全不相关的情况,所以,用(5.3)式除以∑2i D 的最大值,可用来评价X 、Y 之间秩的差值是否与完全不相关时接近。若实际计算的∑2i D 与X 、Y 完全不相关情况下的∑-2)(i i V U 接近,那么两个样本的相关程度较低,若实际计

算的∑2i D 与∑2i D 最大值的比越小,则两个样本的相关程度越高。∑2i D 的最大值即X 、Y 间完全不相关情况下的秩差值平方和,可以根据表5—2所列的数据计算。因为这是X 、Y 完全不相关的评秩结果。∑2i D 的最大值为

3/)1(])3()1[(2)1()]1(2[]2)1[()1(2222222-=+-+-=-+--++--+-n n n n n n n n

(0.4)

(5.4)式的中括号内最后一项,当n 为奇数时是22;n 为偶数时是12。 (5.3)式除以(5.4)式得到

)

1(33

/)1(2222

-=

-∑∑n n D n n D i i (0.5)

(5.5)式的取值从0到1。根据表5-1中的数据计算(5.5)式值为0,表5-2中的数据计算的(5.5)式值为1,即X 、Y 的秩完全一致时,(5.5)式的值为0,X 、Y 的秩完全不一致时,(5.5)式的值为1。

测度两个样本等级相关程度可以象参数方法一样,定义等级相关系数作为标准。斯皮尔曼的等级相关系数(Spearman coefficient of rank correlation)是测定两个样本相关强度的重要指标。其计算公式为

)

1(6122--

=∑n n D R i (0.6)

斯皮尔曼相关系数也写为s r ,在有下标注以s 是为表明这个相关系数r 不是积矩相关的简单相关系数,而是等级相关的Spearman 相关系数。

注:①由于(5.6)式与(5.5)式不同,所以,R 的取值从一1到十1,1=R 表明X 、Y 完全相关,R =十l 为完全正相关,R =一1为完全负相关。R 越接近于l ,表明相关程度越高,反之,R 越接近于零,表明相关程度越低,R =0为完全不相关。R >0为正相关,R <0为负相关。通常认为8.0>R 为相关程度较高。

②Spearman 秩相关系数检验临界值查表可得,P198。 ③存在打结时,Spearman 统计量要作相应修正。 ④在大样本时,可用正态近似作检验。

)1,0(1N n n r Z s ∞→-=

2.应用

【例5-1】经济发展水平和卫生水平之间的相关分析

对某地区12个街道进行调查,并对经济发展水平和卫生水平按规定的标准打分,评定结果如表5—4。

街道号 经济水平

卫生水平 街道号 经济水平 卫生水平

1 8

2 86 7 84 80 2 87 78 8 78 77

3 60 65 9 80 75

4 98 88 10 94 96 5

75

64

11

85

85

相关文档
最新文档