第5章 两个样本和多个样本的相关分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 (1,4) 0
3
2 (2,3) 0
2
3 (3,1) 1
0
4 (4,2) 0
0
在x的秩按自然顺序排列时,y的一致对最大数 目产生于y的秩也按自然顺序排列的情形,此时 它等于 Cn2 。所以,用y的一致对数目与最大可能 一致对数目相比较,可以测定x与y的相关程度。
Y的一致对数目与最大可能一致对数目之比为:
对于连续数据,一般有 定义为:
t
0
,肯德尔系数的被
u v
前面计算公式就是这一公式的一个估计。
检验步骤:
(1)建立假设:
H0 : x和y不相关 H0 : x和y不相关
H0 : x和y不相关
H1 : x和y相关 或 H+ : x和y正相关 或 H1 : x和y负相关
(2)计算检验统计量
(3)作决策
当 当
5.1.1基本思路与检验步骤
设x,y是抽自两个不同总体X,Y的样本,
其配观对察形值 成为(xx11,,yx12),,(..x.2,
xn和
, y2 ),...,
y1 ,
(xn
y2 ,...,
, yn )
;yn 如,果将将它们
序x样i和本y中i 各所自在排位序置,的分名别次评(出称x为i和秩y)i ,在记两个顺
相关系数非常高的样本也有可能来自无相关 关系的总体。为了排除这种情况,需要对相 关系数进行显著性检验。检验的步骤是:
1.提出假设:H0: ;H1: 0
2.计算检验的统计量: t r n 2 ~ t(n 2) 1 r2
3.确定显著性水平,并作出决策。
这一检验在零假设成立且两个变量服从正态 分布的情况下得出的。
秩,则 -1 ,表明x与y完全负相关。一般认
为, 0.8,两组秩次相关程度较高。
Kendall秩相关系数的概率解释
对于n对配对数据两两比较,将会出现三种情
形,即:
0,和谐
(X j
Xi
)(Yj
Yi
)
<0,不和谐
=0,同分
和谐、不和谐和同分的概率分别记为u ,v和t ,
且有: u v t 1
皮尔逊相关系数的局限性
• 皮尔逊相关系数及其显著性检验是建立在数据 变量为定量且服从正态分布的前提下。若这一 前提不成立,则结果不可信或是错误的。此时 需要非参数方法。
• 皮尔逊相关系数只能用来度量两个变量的线性 相关性,不能用来度量两者的相关性。 例,已知X,Y,g(X)是X的单调函数,则有:X 和Y的接近0时,Y和g(X)的可能接近于1。
国家或地 区 荷兰
爱尔兰 德国 比利时 法国
国际化程 度排名
6 7 8 9 10
国际竞争 力排名
4 11 14 23 21
试分析国家化程度与国际竞争力的相互关系 ( 0.05 )
2.美国阿尔塔郡的市长对每年一次的美男子比赛
感兴趣。比赛按5个方面来评选参赛者:容貌,知 识,才能,体形和音质。市长想知道这5个方面 (变量)之间有无联系。比赛之后,他得到了7位 参赛选手的容貌和才能的得分(见下表),试分 析容貌是否和才能有关。
因为S>0,且S> S, r ,所以拒绝 H0,可
以认为总体数学成绩与统计学成绩之间确实存 在正相关关系。
练习
1.10个国家和地区1999年的国际化程度和 国际竞争力排名情况如下表所示:
国家或地 区 美国
新加坡 香港 卢森堡 英国
国际化程 度排名
1 2 3 4 5
国际竞争 力排名
1 2 3 9 12
7.2.1 基本思路与检验步骤
对于n对配对数据,现分别评出x与y 两个数列的秩,然后将x的n个数据的秩按 自然顺序排列,再考察x的秩与y的秩的一 致性。如果两个秩次由小到大排列,则称 为一个一致对,记作+1;否则成为非一致 对,记作-1。由于x的秩次是按照自然序 列由小到大排列的,因此x的观察值每两 个秩之间都是一致对。
皮尔逊相关系数
错误!!!
变量: 连续型 正态分布 线性关系
本章主要内容
连续数据(Pearson积矩相关系数不讲) : • Kendall秩相关检验 • Spearman秩相关检验 • 偏秩相关 • Kendall评定协和系数
5.1 Spearman秩相关检验
Spearman 秩 相 关 是 利 用 斯 皮 尔曼等级相关系数测定变量间等级相 关程度的一种非参数统计相关分析方 法。
第5章 两个和多个样本的相关分 析
参数统计的关联性分析
• 参数统计中衡量两个定量变量之间线性 相关程度的常用指标是皮尔逊( Pearson)相关系数,也称积距相关系数 或动差相关系数(离差相乘)。
• 相关系数的定义公式是:
r (x x)(y y) (x x)2 (y y)2
参数统计的关联性分析
50
65
9
62
75
10
数学成绩 统计学成绩 学号
49
60
11
85
88
12
65
68
13
82
95
14
70
55
15
数学成绩 统计学成绩
76
85
80
77
68
72
90
87
91
96
试分析学生的数学成绩和统计学成绩的相关性( 0.05 )。
解:(1):提出假设:
H
0
:
x和y不相关
H1 : x和y正相关
(2):计算检验统计量
2:当n为大样本时, z rs n 1 近似服从正态分布 N(0,1)。
单侧:P(Z z )=(z) ; 双侧:2P( Z z )=2 (z) 。
5.1.2 应用
某班15名学生的数学成绩与统计学成绩如下表所示 :
学号 1 2 3 4 5
数学成绩 统计学成绩 学号
72
80
6
40
50
7
60
82
8
C2 X
Cn2
C2 y
S
Cn2
1 2
(2x x )
Cn2
1 2
(2y y )
式中, x 是x中打结观察值的个数(结长); y 是y中打结观察值的个数。
X Y 顺序对
0.9 100
9
0.9 104
6
1.0 96
10
1.3 113
1
1.5 106
4
1.6 102
2
1.6 104
2
例如,对于样本数据(10,6),(8,12), (11,7),(9,8)而言,x与y的秩为: X的秩:R 3 1 4 2 Y的秩:S 1 4 2 3
将x的秩按自然顺序排列,四对秩的顺序变为: X的秩:R 1 2 3 4 Y的秩:S 4 3 1 2
x与y的一致对和非一致对的数目计算:
数据对编号(X,Y)秩Y次的自然序Y的对反自然序对
(3)做出决策:
当 rs rs时,拒绝 H0 ;当 rs rs ,不能拒绝 H0 。 rs是临界值(书中记为 c ),它是根据样本观测 之个数n、备择假设(单或双侧)以及给定的显 著 性 水 平 查 《Spearman 秩 相 关 系 数 检 验 临 界 值表》查得。
注意:
1:遇到打结的情况时,如果x或y打结不多,可以 用平均秩解决;如果打结过多(超过全部数据的 1/5),在计算时需要加上校正因子(公式略)。
n i 1
Ri , S
1 n
n i 1
Si
rs 的取值范围在-1到+1之间。rs>0为正相关,
rs <0为负相关; rs =+1为完全正相关,rs =-1
为完全负相关;当 rs 越接近1,表示样本之间的相
关程度越高;rs 越接近于0,表示样本之间的相关 程度越低。一般认 rs >0.8为相关程度越高。
作 Ri和Si,得到n对秩:
(R1 , S1 ), (R2 , S2 ),..., (Rn , Sn )
n对秩可能完全相同,也可能完全相反,或 者不完全相同。
可见,当X与Y完全相关时, (Ri Si ) 0 ,
记作 di 0。其中, di 可以用来度量x和y的相关
程度: di 越大,x与y之间的相关越不完全。由于
Kendall秩相关系数的定义公式为:
= 4uy 1 (3)
n(n 1)
=1 4vy (4)
n(n 1)
令S uy vy ,则Kendall秩相关系数 公式为:
(或
a
)=
S Cn2
2S L n(n 1)
L
L
L
L
(5)
如果x与y有完全相同的评秩,则 1,表
明x与y完全正相关;如果x与y有完全相反的评
n
rs
1
6
i 1
n(n2
d
2 i
1)
=1- 15
6(1958-1)=0.825
(3):作决策
r 0.05 s
0.446
rs
, 所以拒绝
H0 ,可以在5%的显
著性水平下认为数学成绩与统计学成绩存在正相
关关系。又因为 rs 0.8 ,两者呈高度正相关, 相关程度达82.5%。
5.1.3 练习
在一次跳水比赛中,有2名裁判员给运动员的 评分引起了争议。下表列出了他们给12名选手 的评分情况。试在5%的显著性水平下对这两名 裁判员在本次比赛中的评分进行相关分析。
选手
A裁判员 B裁判员 评分 评分
选手
A裁判员 B裁判员 评分 评分
1
8.0
9.0
7
8.9
10.0
2
9.0
8.8
8
9.1
8.3
3
7.5
8.5
9
8.8
9.5
4
8.5
9.8
10
8.2
8.9
5
10.0
8.7
11
9.5
8.6
6
7.0
8.0
12
8.0
7.5
5.2 Kendall秩相关检验
这种方法与Spearman秩相关检验 一样,也是利用秩来研究两个变量 之间的相关程度,只是考虑问题的 角度不同而已。
H1 : x和y相关 或 H1 : x和y正相关 或H1 : x和y负相关
(2)计算检验统计量:
斯皮尔曼等级相关系数是测定两个样本 相关程度的重要指标:
n
n
(Ri R)(Si S)
6 di2
rs
i 1
n
(Ri R)2
n
(Si S)2
1
i 1
n(n2
1)
i 1
i 1
式中:
R
1 n
d之 但 值i 间个可d的数正i2 既差n可受的值负多,,R少i与故直之S用接i 不影用一响di2来致。d反程为i 映测度了度的准R相影i确与S关响度i 会 的,量缩差也x和小值受y大观的R小察i相与;Si
关程度,我们用
d
2 i
的最大值去除
di2 ,则得到
了一个相对测量指标,称为等级相关系数,记为
R。 di2 的最大值反映了x与y之间完全负相关,
H0 : x和y不相关 H1 : x和y正相关
(2)计算检验统计量
学号
2 6 4 3 5 8 13 10 1 11 12 9 7 14 15 合计
X的秩
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 —
Y的秩
1 3 4 10 7 5 6 2 9 11 8 14 13 12 15 —
参赛者编号
容貌
才能
1
50
12
2
48
10
3
30
40
4
47
13
5
20
50
6
25
45
7
40
20
3.试根据下列资料分析驾校训练场模拟驾驶考试 的成绩与在公路上的实地驾驶考试的成绩之间是 否相关。
12名学员两次考试的结果
学员编号 模拟考试
实地路考
1
97
94
2
60
61
3
52
48
4
87
85
5
77
76
6
89
87
7
uy Cn2
2uy L n(n 1)
L
L
L
L
L
L
L
(1)
Y的非一致对数目与最大可能一致对数目之比为:
当y的秩Cvny2 完 n全(2nv按y1自)L然L 顺L L序L排L列L时L ,(2)(1)式的 值为1,(2)式的值为0;当y的秩完全与x的秩 相反时,(1)式的值为0,(2)式的值为1。
为测定两组秩之间的相关程度,定义的相 关系数取值范围从-1到+1。
S S
S S
或 或
r( r
r
S )时,拒绝 时C,n2 不能拒绝 H
H0 ; 0。
注:一般的表只是当k或 为正的情况。在k<0时,
由对称性,取绝对值查表即可。
5.2.2 应用
根据5.1.2节中的例子,用Kendall秩相关检 验法分析学生数学成绩与统计学成绩的相关性。 解:(1)建立假设
它等于:
(n 1)2 (n 1) 22 ... 2 (n 1)2 (1 n)2 2 (n 1)2 (n 3)2 ...
n(n2 1) / 3
R
d
2 i
3
d
2 i
n(n2 1) / 3 n(n2 1)
检验步骤:
(1)建立假设:
H0 : x和y不相关
H0 : x和y不相关 H0 : x和y不相关
79
75
8
98
97
9
94
92
10
83
80
11
74
71
12
73
72
5.2.3 有结修正与大样本近似
若低有 估结 。时 这, 时=需CS要n2 修n(n2S正1) 公,式用。uy vy
n(n 1) 2
估计就会
对于一个有m个相同观测值的结情形,共有Cm2
个对子,显然一个修正可以如下:
b
S
Cn2
Y的u一y 致对
Y的非一致
对v y
14
0
12
1
11
1
5
6
7
3
8
1
7
1
7
0
5
1
4
1Fra Baidu bibliotek
4
0
1
2
1
1
1
0
0
0
87
18
S uy vy 87 18 69
2S 2 69 0.657
n(n 1) 15 (15 1)
(3)做出决策 根据n=15, 0.05,查《Kendall检验临界值 表》,得 S 35,r 0.333 。