两个样本和多个样本的相关分析演示文稿
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(2)计算检验统计量
(3)作决策
当 当
S S
S S
或 或
r( r
r
时 CS,n2 )不时能,拒拒绝绝H
H0 ; 0。
注:一般的表只是当k或 为正的情况。在k<0时,
由对称性,取绝对值查表即可。
第二十五页,共44页。
5.2.2 应用
根据5.1.2节中的例子,用Kendall秩相关检 验法分析学生数学成绩与统计学成绩的相关性。 解:(1)建立假设
Spearman秩相关是利用斯皮尔
曼等级相关系数测定变量间等级相关程 度的一种非参数统计相关分析方法。
第八页,共44页。
5.1.1基本思路与检验步骤
设x,y是抽自两个不同总体X,Y的样本,其观
察成序x值样i和为本y中i 各所(自xx在11,,排位yx1序2)置,,(.,x.的.2,,分名xyn2别和 次),.;.评(., (如y出x称1n,果x,y为,yi2将和 n,.秩将)..,y它)yin们,在配记两对个形顺
第十六页,共44页。
5.1.3 练习
在一次跳水比赛中,有2名裁判员给运动员的 评分引起了争议。下表列出了他们给12名选手 的评分情况。试在5%的显著性水平下对这两名 裁判员在本次比赛中的评分进行相关分析。
选手
A裁判员 B裁判员 评分 评分
选手
A裁判员 B裁判员 评分 评分
1
8.0
9.0
7
8.9
10.0
x与y的一致对和非一致对的数目计算:
数据对编号(X,Y)秩Y次的自然序Y的对反自然序对
1 (1,4) 0
3
2 (2,3) 0
2
3 (3,1) 1
0
4 (4,2) 0
0
在x的秩按自然顺序排列时,y的一致对最大数目 产生于y的秩也按自然顺序排列的情形,此时它等于 。相所比以较,,C用n可2 y以的测一定致x对与数y的目相与关最程大度可。能一致对数目
3.确定显著性水平,并作出决策。
这一检验在零假设成立且两个变量服从正态分布 的情况下得出的。
第四页,共44页。
皮尔逊相关系数的局限性
• 皮尔逊相关系数及其显著性检验是建立在数据变量 为定量且服从正态分布的前提下。若这一前提不成 立,则结果不可信或是错误的。此时需要非参数方 法。
• 皮尔逊相关系数只能用来度量两个变量的线性 相关性,不能用来度量两者的相关性。 例,已知X,Y,g(X)是X的单调函数,则有:X和Y 的接近0时,Y和g(X)的可能接近于1。
一般认 >0.8为相关rs 程度越高。 (3)做出决策:
nrs、是当临备r界择s 值假r时(s设 ,书(拒中单绝记或为双;H侧0)当c),以它r是及s 根,给r据不s定 样能的本拒显观绝著测性之。水个H平数0
查《Spearman秩相关系数检验临界值表》查得。
第十三页,共44页。
注意:
1:遇到打结的情况时,如果x或y打结不多,可以用 平均秩解决;如果打结过多(超过全部数据的
第二十一页,共44页。
Y的一致对数目与最大可能一致对数目之比为:
uy 2uy
(1)
Cn2 n(n 1)
Y的非一致对数目与最大可能一致对数目之比为:
当y的秩Cv完ny2 全n按(2nv自y1然) 顺序排列时,((12)) 式的值为 1,(2)式的值为0;当y的秩完全与x的秩相反时, (1)式的值为0,(2)式的值为1。
Y的u一y 致对
Y的非一致
对v y
14
0
12
1
11
1
5
6
7
3
8
1
7
1
7
0
5
1
4
1
4
0
1
2
1
1
1
0
0
0
87
18
S uy vy 87 18 69
2S 2 69 0.657
n(n 1) 15 (15 1)
(3)做出决策
根据n=15, 0.,05 查《Kendall检验临界值表》
,得
S 35,r 。0.333
2
9.0
8.8
8
9.1
8.3
3
7.5
8.5
9
8.8
9.5
4
8.5
9.8
10
8.2
8.9
5
10.0
8.7
11
9.5
8.6
6
7.0
8.0
12
8.0
7.5
第十七页,共44页。
5.2 Kendall秩相关检验
这种方法与Spearman秩相关检验一
样,也是利用秩来研究两个变量之间的 相关程度,只是考虑问题的角度不同而 已。
H
0
:
x和y不相关
H1 : x和y正相关
(2):计算检验统计量
n
rs
1
6
i 1
n(n2
di2 1)
=1- 15
6(195-8 1)=0.825
(3):作决策
r 0.05 s
0.446
rs所, 以拒 绝
水平下认为数学成绩与统
计学,H成0可绩以存在在5%正相的
显著性 关关系。
又因为 82.5%。
,r两s 者0.8呈高度正相关,相关程度达
76
6
89
87
7
79
75
8
98
97
9
94
92
10
83
11
74
80
71
12
73
72
第三十一页,共44页。
5.2.3 有结修正与大样本近似
若估有。结 这时 时, 需要=修CSn2 正n(公n2S式,1) 。用
大值反d映i2 了x与y之间完全负相关,它等于:
(n 1)2 (n 1) 22 ... 2 (n 1)2 (1 n)2 2 (n 1)2 (n 3)2 ...
n(n2 1) / 3
R
n(n 2
d
2 i
1) / 3
3 n(n 2
d
2 i
1)
第十一页,共44页。
检验步骤:
第十八页,共44页。
7.2.1 基本思路与检验步骤
对于n对配对数据,现分别评出x与y两 个数列的秩,然后将x的n个数据的秩按自 然顺序排列,再考察x的秩与y的秩的一致 性。如果两个秩次由小到大排列,则称为 一个一致对,记作+1;否则成为非一致对, 记作-1。由于x的秩次是按照自然序列由 小到大排列的,因此x的观察值每两个秩之 间都是一致对。
越大,xdi与y之间的相关越不完全。由于
d之但个i 间数可d的n正i2 既的差可受多值负少,,R之i故直与影S用接i 不响用。一di2为来致了d反程i 准映测度确度的R度相影i与量S关响i x会的,和缩差也y小值受的相大观关R小察i与程;值Si
度对,测我量们指用标,称为的等最d级大i2 相值关去系除数,记,为则R得di。2到了一的个最相
1 2 3 9 12
国家或地 区 荷兰
爱尔兰 德国 比利时 法国
国际化程 度排名
6 7 8 9 10
国际竞争 力排名
4 11 14 23 21
试分析国家化程度与国际竞争力的相互关系
(
)
0.05
第二十九页,共44页。
2.美国阿尔塔郡的市长对每年一次的美男子比赛感兴
趣。比赛按5个方面来评选参赛者:容貌,知识, 才能,体形和音质。市长想知道这5个方面(变量) 之间有无联系。比赛之后,他得到了7位参赛选手的容 貌和才能的得分(见下表),试分析容貌是否和才 能有关。
因为S>0,且S> ,S , r所 以拒绝 ,可H0以认
为总体数学成绩与统计学成绩之间确实存在正
相关关系。
第二十八页,共44页。
练习
1.10个国家和地区1999年的国际化程度和国
际竞争力排名情况如下表所示:
国家或地 区 美国
新加坡 香港 卢森堡 英国
国际化程 度排名
1 2 3 4 5
国际竞争 力排名
r (x x)(y y) (x x)2 (y y)2
第三页,共44页。
参数统计的关联性分析
相关系数非常高的样本也有可能来自无相关关 系的总体。为了排除这种情况,需要对相关系 数进行显著性检验。检验的步骤是:
1.提出假设:H0: ;H1: 0
2.计算检验的统计量:
t r n 2 ~ t(n 2) 1 r2
参赛者编号
容貌
才能
1
50
12
2
48
10
3
30
40
4
47
13
5
20
50
6
25
45
7
40
20
第三十页,共44页。
3.试根据下列资料分析驾校训练场模拟驾驶考试的成绩
与在公路上的实地驾驶考试的成绩之间是否相关。
12名学员两次考试的结果
学员编号 模拟考试
实地路考
1
97
2
60
3
52
94 61
48
4
87
85
5
77
第十九页,共44页。
例 如 , 对 于 样 本 数 据 (10,6 ) , (8,12 ) , (11,7),(9,8)而言,x与y的秩为: X的秩:R 3 1 4 2 Y的秩:S 1 4 2 3
将x的秩按自然顺序排列,四对秩的顺序变为: X的秩:R 1 2 3 4 Y的秩:S 4 3 1 2
第二十页,共44页。
i 1
n
(Ri R)2
n
(Si S)2
1
i 1
n(n2
1)
i 1
i 1
1 n
1n
R n i1 Ri , S n i1 Si
第十二页,共44页。
rs 的取值范围在-1到+1之间。 >rs0为正相关,
rs <0为负相关; r=s +1为完全正相关, =rs-1 为 完度全越高负;相关越;接当rs近于越r0s 接,近表1示,样表本示之样间本的之相间关的程相度关越程低。
72
80
40
50
60
82
50
65
62
75
学号 6 7 8 9 10
数学成绩 统计学成绩 学号
49
60
11
85
88
12
65
68
13
82
95
14
70
55
15
数学成绩 统计学成绩
76
85
80
77
68
72
90
87
91
96
试分析学生的数学成绩和统计学成绩的相关性( 0.05)。
第十五页,共44页。
解:(1):提出假设:
第五页,共44页。
皮尔逊相关系数
错误!!!
变量: 连续型 正态分布 线性关系
第六页,共44页。
本章主要内容
连续数据(Pearson积矩相关系数不讲) : • Kendall秩相关检验 • Spearman秩相关检验 • 偏秩相关
• Kendall评定协和系数
第七页,共44页。
5.1 Spearman秩相关检验
(5)
,1表明x
与y完全正相关;如果x与y有完全相反的评秩,
则 ,表 明 -x与1 y完全负相关。一般认为,
组秩次相0关.8程度较高。
,两
第二十三页,共44页。
Kendall秩相关系数的概率解释
对于n对配对数据两两比较,将会出现三种情
形,即:
0,和谐
(X j
Xi
)(Yj
Yi
)
<0,不和谐
(1)建立假设:
H0 : x和y不相关
H0 : x和y不相关 H0 : x和y不相关
H1 : x和y相关 或 H1 : x和y正相关 或 H1 : x和y负相关
(2)计算检验统计量:
斯皮尔曼等级相关系数是测定两个样本相关程 度的重要指标:
式中:
n
n
(Ri R)(Si S)
6 di2
rs
1/5),在计算时需要加上校正因子(公式略)。
2:当n为大样本 N(0,1)。
时,
z
rs
n1 近似服从正态分布
单侧:P(Z z )= (z) ; 双侧:2P( Z )z=2 (。z)
第十四页,共44页。
5.1.2 应用
某班15名学生的数学成绩与统计学成绩如下表所示 :
学号 1 2 3 4 5
数学成绩 统计学成绩
作
Ri
和S
,得到n对秩:
i
n对秩(R可1,能S1完), (全R2相, S同2 ),,..也., (可Rn能, S完n )全相反,或 者不完全相同。
第九页,共44页。
第十页,共44页。
可见,当X与Y完全相关时, (Ri Si ), 记0
作 d。i 其0 中, 可以di 用来度量x和y的相关程度:
H0 : x和y不相关 H1 : x和y正相关
(2)计算检验统计量
第二十六页,共44页。
学号
2 6 4 3 5 8 13 10 1 11 12 9 7 14 15 合计
第二十七页,共44页。
X的秩
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 —
Y的秩
1 3 4 10 7 5 6 2 9 11 8 14 13 12 15 —
为测定两组秩之间的相关程度,定义的相关系数
取值范围从-1到+1。
第二十二页,共44页。
Kendall秩相关系数的定义公式为:
= 4uy 1(3)
n(n 1)
=1 4vy (4)ห้องสมุดไป่ตู้
n(n 1)
令
S
uy
v
,则Kendall秩相关系数
y
公式为:
如果x 与(或y有a )完=全CSn2相同n(的n2S评1)秩,则
两个样本和多个样本的相关分 析演示文稿
第一页,共44页。
优选两个样本和多个样本的相 关分析ppt
第二页,共44页。
参数统计的关联性分析
• 参数统计中衡量两个定量变量之间线性相 关程度的常用指标是皮尔逊( Pearson) 相关系数,也称积距相关系数或动差相关 系数(离差相乘)。
• 相关系数的定义公式是:
=0,同分
和谐、不和谐和同分的概率分别记为u ,v和t ,
且有: u v t 1
对于连续数据,一般有 定义为:
t
0
,肯德尔系数的被
u v
前面计算公式就是这一公式的一个估计。
第二十四页,共44页。
检验步骤:
(1)建立假设:
H0 : x和y不相关 H0 : x和y不相关
H0 : x和y不相关
H1 : x和y相关 或 H+ : x和y正相关 或 H1 : x和y负相关