第十一章相关分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十一章
相关分析
一、相关概述
1、相关的概念
两个变量之间不精确、不稳定的变化
关系,称为相关关系。
两个变量之间的变化关系,既表现在
变化方向上,又表现在密切程度上。
两个变量之间的变化方向有:
正相关:两个变量的变化方向相同。
负相关:两个变量的变化方向相反。 零相关:两个变量的变化方向无一定规律。
切程度的统计指标称为相关系数,一般样本的
相关系数用r表示,总体的相关系数用ρ 表示。
相关系数的取值: -1≤ r ≤+1
0≤∣r∣≤1
相关系数的符号:“+”表示正相关,
“-”表示负相关。
3、相关系数的性质
相关系数不是由相
等单位度量而来的,因
此只能比较大小,不能 做任何加、减、乘、除 运算。
r XY X Y / n
2 X X 2 2 Y Y 2
n
( 18.2a )
n
r
nXY X Y nX X nY Y
2 2 2 2
( 18.2b )
表18-2 10个学生初一与初二数学成绩积差相关系数计算表
主要包括斯皮尔曼(spearman)二列等级
相关和肯德尔和谐系数(the kandall
coefficient of concordance)多列等级相关。
1、斯皮尔曼等级相关的概念及适用条件
斯皮尔曼等级相关是等级相关的一种。它
适用于两个以等级次序表示的变量,并不要求
两个变量总体呈正态分布,也不要求样本的容
Y
n
2
51467 710 723/ 10 7102 7232 50520 52541 10 10
两种公式计算结果相同,
0.780
但以原始数据的计算公式更 为简捷和准确。
三.斯皮尔曼等级相关
等级相关(rank correlation)是指以等级
次序排列或以等级次序表示的变量之间的相关。
等级相关系数为什么会有差别?哪一个 更准确?
四.肯德尔和谐系数
肯德尔等级相关方法有许多种,肯德
尔和谐系数是其中一种。
肯德尔和谐系数常以rW表示,适用于
多列等级变量的资料。
肯德尔和谐系数可以反映多个等级变
量变化的一致性。
肯德尔和谐系数的计算公式
rW SSR 1 2 3 K n n 12
Ri
33 63 50 15 40 17
Ri2
1089 3969 2500 225 1600 289
62 3844 280 13516
表18-6
4位教师对6位学生作文竞赛的名次排列 学生 n=6 1 2 3 4 5 6 评价者 K=4
例:4位教师 对6位学生作文 竞赛的名次排列
1
3 4 2 6 1 5
积差相关系数为
X X Y Y S S X Y r n
或
X X Y Y r n S X SY
公式中: X 为变量X的平均数,
Y 为变量Y的平均数,
( 18.1 )
计算得到了相关系数,
百度文库
S X 为变量X的标准差,
评价者 K=10
1 3 6 5 1 4 2 7
2 5 6 4 1 3 2 7
3 2 7 5 1 4 3 6
4 3 6 7 2 4 1 5
5 4 7 6 2 3 1 5
6 4 5 6 2 3 1 7
7 3 7 4 2 5 1 6
8 2 7 4 1 6 3 5
9 4 6 5 1 3 2 7
10 3 6 4 2 5 1 7
p 和q分别是二分名义变量的两个值各自所占的比例,p+q=1 St 是连续变量的标准差
表19-1
五岁幼儿投掷砂袋成绩
性别 序号 成绩 性别
例19-1:18
序号
成绩
个五岁幼儿掷砂
1 2 3 4 5
4.0 3.6 3.5 3.2 4.4
1 2 2 2 1
10 11 12 13 14
3.4 4.9 3.7 3.3 4.7
11.1 0 9 0
2
Y Y
2
3 0
3.7 2.7
13.69 7.29
3
4 5 6 7 8 9 10 合计
72
68 76 73 67 70 54 74 710
71
70 76 79 65 77 62 72 723
1
-3 5 2 -4 -1 -6 3
-1.3
-2.3 3.7 6.7 -7.3 4.7 -10.3 -0.3
2
4 3 1 5 2 6
3
2 1 3 6 4 5
4
1 3 4 5 2 6
次序如表18-6。
问4位教师评定
的一致性程度如
何?
表18-7
4位教师对6位学生作文竞赛名次排列的 肯德尔和谐系数计算表 评价者 K=4 1 3 4 2 6 1 5 2 4 3 1 5 2 6 3 2 1 3 6 4 5 4 1 3 4 5 2 6
序号 X Y
X2
Y2
XY
1
74
76
5476
5776
5624
2
3 4 5 6 7 8 9 10 合计
71
72 68 76 73 67 70 54 74 710
75
71 70 76 79 65 77 62 72 723
8041
5184 4624 5776 5329 4489 4900 4225 5476 50520
有时一个变量并非真正的二分变量,而是双
峰分布的变量,也可以用点二列相关来表示。
点二列相关系数的计算公式为
X p Xq rpb pq St
或
( 19.1 )
X p Xt p rpb St q
( 19.2 )
公式中: X p 是与二分名义变量的一个值对应的连续变量的平均数
X q 是与二分名义变量的另一个值对应的连续变量的平均数
D2
1 1 1 1 1 1 1 4 1 1
13
6D 2 6 13 rR 1 1 0.9212 2 n(n 1) 10100 1
如果有相同等级时,可用它们所占
等级位置的平均数作为它们的等级。
表18-4 10个学生初一与初二数学成绩斯皮尔曼等级相关系数计算表
序号 1 2 3 4 5 6 7 X 74 71 72 68 76 73 67 Y 76 75 71 70 76 79 65 RX 2.5 6 5 8 1 4 9 RY 3.5 5 7 8 3.5 1 9 D=RX-RY -1.0 1 -2 0 -2.5 3 0
量必须大于30。
当连续数据不能满足计算积差相关的条件
时,可以转换成等级数据从而计算斯皮尔曼等
级相关系数。
2、斯皮尔曼等级相关系数的计算
斯皮尔曼等级相关系数表示为rR,其计算公式为:
6RXi RYi 6D 2 rR 1 1 nn 1 n(n 2 1)
2
( 18.3 )
二、积差相关
1、积差相关及其适用条件
积差相关是英国统计学家皮尔逊(pearson)
于20世纪初提出的一种计算相关的方法,因而
被称为皮尔逊积差相关,也称为积矩相关
(product moment correlation)。
积差相关适用于:两个变量都是连
续数据;两变量总体都为正态分布;两 变量之间为线性关系。
( 18.5 )
公式中:
m为相同等级的数目。
五、质与量的相关
一个变量为性质变量, 另一个变量为数量变量, 这样的两个变量之间的
相关称为质与量的相关。
1、点二列相关
适用条件
一个变量为正态、连续变量,另一个变量为
真正的二分名义变量,这两个变量之间的相关,
称为点二列相关(point-biserial correlation)。
2
110 3.317 10
2
Y Y SY n
2
268 5.178 10
2
再将数据代入公式计算积差相关系数:
X X Y Y 134 r 0.780 n S X SY 10 3.317 5.178
积差相关系数的原始数据计算公式
-1.3
6.9 18.5 13.4 29.2 -4.7 61.8 -0.9 134
1
9 25 4 16 1 36 9 110
1.69
5.29 13.69 44.89 53.29 22.09 106.09 0.09 268.10
计 算
先计算变量 X 和 Y 的标准差:
X X SX n
成对数据,样本容量要大。
2、积差相关条件的判断方法
连续变量:
根据得到数据的方式判断,测量数据。
正态分布
一般情况下,正常人群的身高、体重、智力水平、心理
与教育测验的结果,都可按总体正态分布对待;如果要求比 较高,则需要对数据进行正态性检验。 线性关系
根据相关散布图可判断两个变量之间是否线性关系。
2 1 2 2 1
袋(150克),
成绩如表19-1,
问性别与投掷成
绩的相关情况如
6
7
4.8
3.8
1
2
15
16
4.8
3.1
1
2
何?
8
9
5.2
4.7
1
1
17
18
2.9
学生 n=6 1 2 3 4 5 6 Σ
Ri
10 11 10 22 9 22 84
Ri2
100 121 100 484 81 484 1370
有相同等级时,需要用肯德尔和谐系数的
修正公式计算rW系数。
rW 1 2 3 K n n KT 12
m3 m T 12
SSR
( 18.4 )
公式中:rw表示肯德尔和谐系数 K表示等级评定者的数目,即变量数 n为被等级评定的对象的数目 R为被评定对象获得的K个等级之和 SSR为R的离差平方和,即
SSR
2 R i R 2 i
n
例
n= 7 红 橙 黄 绿 青 蓝 紫 Σ
表18-5 肯德尔和谐系数计算表
从关系密切程度来看,两个变量的 变化程度可大致分为
完全相关:两个变量的变化程度完全一致。 强相关:两个变量变化的一致性比较强。 中等相关:两个变量变化的一致程度中等。 弱相关:两个变量变化的一致性比较差。 完全不相关:两个变量变化程度没有一致性。
2.相关系数
用来描述两个变量相互之间变化方向及密
5626
5041 4900 5776 6241 4225 5929 3844 5184 52541
5325
5112 4760 5776 5767 4355 5390 4030 5328 51467
代入公式计算:
r XY X Y / n X 2
X
n
2
Y 2
SY 为变量Y的标准差,
还不能确定这两个变量一
定具有相关关系,需要对 相关系数进行显著性检验 之后,才能做出判断。
n 为数据的对数
表18-1 10个学生初一与初二数学成绩积差相关系数计算表
序号 1 2 X 74 71 Y 76 75
X X Y Y
X X Y Y X X
公式中:RX为变量X的等级数, RY为变量Y的等级数, D为两变量的等级数之差,即D=RX-RY
n为样本的容量
表18-3 10个高三学生学习潜在能力测验(X)与自学能力测验(Y)成绩 斯皮尔曼等级相关系数计算表
序号 1 2 3 4 5 6 7 8 9 10 合计 X 90 84 76 75 73 71 69 68 66 64 Y 2 1 4 5 6 7 8 3 10 9 RX 1 2 3 4 5 6 7 8 9 10 RY 2 1 4 5 6 7 8 6 10 9 D=RX-RY -1 1 -1 -1 -1 -1 -1 2 -1 1
图18-4
完全负相关
散点的分布没有明显集中在某一
方向的趋势,形成圆形区域时,两变
量之间的关系为零相关。
两个变量之 间是否相关,要 有充分的理论依 据,并排除共变 图18-5 零相关 因素的影响。
3、积差相关系数的计算公式
积差相关系数的定义公式
协方差
X X Y Y COV n
D2
1 1 4 0 6.25 9 0
8 9
10 合计
70 54
74 710
77 62
72 723
7 10
2.5
2 10
6
5 0
-3.5
25 0
12.25 58.5
计 算
6D 2 6 58.5 rR 1 1 0.645 2 n(n 1) 10100 1
思考:同一组数据的积差相关系数和
散点的分布形状为椭圆形,可认为两变 量之间具有线性关系。
图18-1 正相关
图18-2
负相关
当所有的点都分布在一条直线上时,
两变量之间的关系为完全相关。
16 B 15 14 13 12 11 10 10 12 14 A 16
70 C 68 66 64 62 10 12 14 A 16
图18-3
完全正相关
相关分析
一、相关概述
1、相关的概念
两个变量之间不精确、不稳定的变化
关系,称为相关关系。
两个变量之间的变化关系,既表现在
变化方向上,又表现在密切程度上。
两个变量之间的变化方向有:
正相关:两个变量的变化方向相同。
负相关:两个变量的变化方向相反。 零相关:两个变量的变化方向无一定规律。
切程度的统计指标称为相关系数,一般样本的
相关系数用r表示,总体的相关系数用ρ 表示。
相关系数的取值: -1≤ r ≤+1
0≤∣r∣≤1
相关系数的符号:“+”表示正相关,
“-”表示负相关。
3、相关系数的性质
相关系数不是由相
等单位度量而来的,因
此只能比较大小,不能 做任何加、减、乘、除 运算。
r XY X Y / n
2 X X 2 2 Y Y 2
n
( 18.2a )
n
r
nXY X Y nX X nY Y
2 2 2 2
( 18.2b )
表18-2 10个学生初一与初二数学成绩积差相关系数计算表
主要包括斯皮尔曼(spearman)二列等级
相关和肯德尔和谐系数(the kandall
coefficient of concordance)多列等级相关。
1、斯皮尔曼等级相关的概念及适用条件
斯皮尔曼等级相关是等级相关的一种。它
适用于两个以等级次序表示的变量,并不要求
两个变量总体呈正态分布,也不要求样本的容
Y
n
2
51467 710 723/ 10 7102 7232 50520 52541 10 10
两种公式计算结果相同,
0.780
但以原始数据的计算公式更 为简捷和准确。
三.斯皮尔曼等级相关
等级相关(rank correlation)是指以等级
次序排列或以等级次序表示的变量之间的相关。
等级相关系数为什么会有差别?哪一个 更准确?
四.肯德尔和谐系数
肯德尔等级相关方法有许多种,肯德
尔和谐系数是其中一种。
肯德尔和谐系数常以rW表示,适用于
多列等级变量的资料。
肯德尔和谐系数可以反映多个等级变
量变化的一致性。
肯德尔和谐系数的计算公式
rW SSR 1 2 3 K n n 12
Ri
33 63 50 15 40 17
Ri2
1089 3969 2500 225 1600 289
62 3844 280 13516
表18-6
4位教师对6位学生作文竞赛的名次排列 学生 n=6 1 2 3 4 5 6 评价者 K=4
例:4位教师 对6位学生作文 竞赛的名次排列
1
3 4 2 6 1 5
积差相关系数为
X X Y Y S S X Y r n
或
X X Y Y r n S X SY
公式中: X 为变量X的平均数,
Y 为变量Y的平均数,
( 18.1 )
计算得到了相关系数,
百度文库
S X 为变量X的标准差,
评价者 K=10
1 3 6 5 1 4 2 7
2 5 6 4 1 3 2 7
3 2 7 5 1 4 3 6
4 3 6 7 2 4 1 5
5 4 7 6 2 3 1 5
6 4 5 6 2 3 1 7
7 3 7 4 2 5 1 6
8 2 7 4 1 6 3 5
9 4 6 5 1 3 2 7
10 3 6 4 2 5 1 7
p 和q分别是二分名义变量的两个值各自所占的比例,p+q=1 St 是连续变量的标准差
表19-1
五岁幼儿投掷砂袋成绩
性别 序号 成绩 性别
例19-1:18
序号
成绩
个五岁幼儿掷砂
1 2 3 4 5
4.0 3.6 3.5 3.2 4.4
1 2 2 2 1
10 11 12 13 14
3.4 4.9 3.7 3.3 4.7
11.1 0 9 0
2
Y Y
2
3 0
3.7 2.7
13.69 7.29
3
4 5 6 7 8 9 10 合计
72
68 76 73 67 70 54 74 710
71
70 76 79 65 77 62 72 723
1
-3 5 2 -4 -1 -6 3
-1.3
-2.3 3.7 6.7 -7.3 4.7 -10.3 -0.3
2
4 3 1 5 2 6
3
2 1 3 6 4 5
4
1 3 4 5 2 6
次序如表18-6。
问4位教师评定
的一致性程度如
何?
表18-7
4位教师对6位学生作文竞赛名次排列的 肯德尔和谐系数计算表 评价者 K=4 1 3 4 2 6 1 5 2 4 3 1 5 2 6 3 2 1 3 6 4 5 4 1 3 4 5 2 6
序号 X Y
X2
Y2
XY
1
74
76
5476
5776
5624
2
3 4 5 6 7 8 9 10 合计
71
72 68 76 73 67 70 54 74 710
75
71 70 76 79 65 77 62 72 723
8041
5184 4624 5776 5329 4489 4900 4225 5476 50520
有时一个变量并非真正的二分变量,而是双
峰分布的变量,也可以用点二列相关来表示。
点二列相关系数的计算公式为
X p Xq rpb pq St
或
( 19.1 )
X p Xt p rpb St q
( 19.2 )
公式中: X p 是与二分名义变量的一个值对应的连续变量的平均数
X q 是与二分名义变量的另一个值对应的连续变量的平均数
D2
1 1 1 1 1 1 1 4 1 1
13
6D 2 6 13 rR 1 1 0.9212 2 n(n 1) 10100 1
如果有相同等级时,可用它们所占
等级位置的平均数作为它们的等级。
表18-4 10个学生初一与初二数学成绩斯皮尔曼等级相关系数计算表
序号 1 2 3 4 5 6 7 X 74 71 72 68 76 73 67 Y 76 75 71 70 76 79 65 RX 2.5 6 5 8 1 4 9 RY 3.5 5 7 8 3.5 1 9 D=RX-RY -1.0 1 -2 0 -2.5 3 0
量必须大于30。
当连续数据不能满足计算积差相关的条件
时,可以转换成等级数据从而计算斯皮尔曼等
级相关系数。
2、斯皮尔曼等级相关系数的计算
斯皮尔曼等级相关系数表示为rR,其计算公式为:
6RXi RYi 6D 2 rR 1 1 nn 1 n(n 2 1)
2
( 18.3 )
二、积差相关
1、积差相关及其适用条件
积差相关是英国统计学家皮尔逊(pearson)
于20世纪初提出的一种计算相关的方法,因而
被称为皮尔逊积差相关,也称为积矩相关
(product moment correlation)。
积差相关适用于:两个变量都是连
续数据;两变量总体都为正态分布;两 变量之间为线性关系。
( 18.5 )
公式中:
m为相同等级的数目。
五、质与量的相关
一个变量为性质变量, 另一个变量为数量变量, 这样的两个变量之间的
相关称为质与量的相关。
1、点二列相关
适用条件
一个变量为正态、连续变量,另一个变量为
真正的二分名义变量,这两个变量之间的相关,
称为点二列相关(point-biserial correlation)。
2
110 3.317 10
2
Y Y SY n
2
268 5.178 10
2
再将数据代入公式计算积差相关系数:
X X Y Y 134 r 0.780 n S X SY 10 3.317 5.178
积差相关系数的原始数据计算公式
-1.3
6.9 18.5 13.4 29.2 -4.7 61.8 -0.9 134
1
9 25 4 16 1 36 9 110
1.69
5.29 13.69 44.89 53.29 22.09 106.09 0.09 268.10
计 算
先计算变量 X 和 Y 的标准差:
X X SX n
成对数据,样本容量要大。
2、积差相关条件的判断方法
连续变量:
根据得到数据的方式判断,测量数据。
正态分布
一般情况下,正常人群的身高、体重、智力水平、心理
与教育测验的结果,都可按总体正态分布对待;如果要求比 较高,则需要对数据进行正态性检验。 线性关系
根据相关散布图可判断两个变量之间是否线性关系。
2 1 2 2 1
袋(150克),
成绩如表19-1,
问性别与投掷成
绩的相关情况如
6
7
4.8
3.8
1
2
15
16
4.8
3.1
1
2
何?
8
9
5.2
4.7
1
1
17
18
2.9
学生 n=6 1 2 3 4 5 6 Σ
Ri
10 11 10 22 9 22 84
Ri2
100 121 100 484 81 484 1370
有相同等级时,需要用肯德尔和谐系数的
修正公式计算rW系数。
rW 1 2 3 K n n KT 12
m3 m T 12
SSR
( 18.4 )
公式中:rw表示肯德尔和谐系数 K表示等级评定者的数目,即变量数 n为被等级评定的对象的数目 R为被评定对象获得的K个等级之和 SSR为R的离差平方和,即
SSR
2 R i R 2 i
n
例
n= 7 红 橙 黄 绿 青 蓝 紫 Σ
表18-5 肯德尔和谐系数计算表
从关系密切程度来看,两个变量的 变化程度可大致分为
完全相关:两个变量的变化程度完全一致。 强相关:两个变量变化的一致性比较强。 中等相关:两个变量变化的一致程度中等。 弱相关:两个变量变化的一致性比较差。 完全不相关:两个变量变化程度没有一致性。
2.相关系数
用来描述两个变量相互之间变化方向及密
5626
5041 4900 5776 6241 4225 5929 3844 5184 52541
5325
5112 4760 5776 5767 4355 5390 4030 5328 51467
代入公式计算:
r XY X Y / n X 2
X
n
2
Y 2
SY 为变量Y的标准差,
还不能确定这两个变量一
定具有相关关系,需要对 相关系数进行显著性检验 之后,才能做出判断。
n 为数据的对数
表18-1 10个学生初一与初二数学成绩积差相关系数计算表
序号 1 2 X 74 71 Y 76 75
X X Y Y
X X Y Y X X
公式中:RX为变量X的等级数, RY为变量Y的等级数, D为两变量的等级数之差,即D=RX-RY
n为样本的容量
表18-3 10个高三学生学习潜在能力测验(X)与自学能力测验(Y)成绩 斯皮尔曼等级相关系数计算表
序号 1 2 3 4 5 6 7 8 9 10 合计 X 90 84 76 75 73 71 69 68 66 64 Y 2 1 4 5 6 7 8 3 10 9 RX 1 2 3 4 5 6 7 8 9 10 RY 2 1 4 5 6 7 8 6 10 9 D=RX-RY -1 1 -1 -1 -1 -1 -1 2 -1 1
图18-4
完全负相关
散点的分布没有明显集中在某一
方向的趋势,形成圆形区域时,两变
量之间的关系为零相关。
两个变量之 间是否相关,要 有充分的理论依 据,并排除共变 图18-5 零相关 因素的影响。
3、积差相关系数的计算公式
积差相关系数的定义公式
协方差
X X Y Y COV n
D2
1 1 4 0 6.25 9 0
8 9
10 合计
70 54
74 710
77 62
72 723
7 10
2.5
2 10
6
5 0
-3.5
25 0
12.25 58.5
计 算
6D 2 6 58.5 rR 1 1 0.645 2 n(n 1) 10100 1
思考:同一组数据的积差相关系数和
散点的分布形状为椭圆形,可认为两变 量之间具有线性关系。
图18-1 正相关
图18-2
负相关
当所有的点都分布在一条直线上时,
两变量之间的关系为完全相关。
16 B 15 14 13 12 11 10 10 12 14 A 16
70 C 68 66 64 62 10 12 14 A 16
图18-3
完全正相关