相关系数 PPT
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(∑Y
N
)2
30 − 102 ⋅ 285 − 352
5
5
第三节 等级相关
23
斯皮尔曼等级相关
英国心理学家Spearman在皮尔逊相关的基础上推导而 来,在定义中把点的坐标换成各自样本的等级。
24
斯皮尔曼等级相关
适用条件
适用于两列等级性质的变量(既可以是等级变量,也可 以是连续变量赋以等级顺序转换而来)。 对数据整体分布不作要求
15
积差相关的计算公式
∑ r = X和Y共同变化的程度 r = X和Y单独变化的程度
(X - X )(Y − Y ) NS X SY
∑ SX =
(X − X )2 N
∑ SY =
(Y − Y )2 N
r = ∑ (X - X )(Y − Y ) =
∑ (X - X )(Y − Y )
NS X SY
10
10
答:这10名学生身高与体重的相关系数为0.79
19
积差相关与Z分数
积差相关测量了一个个体在X分布上的位置与在Y 分布上的位置之间的关系。而Z分数提供了一个精确 的方式来表示一个分数在分布中的位置。所以积差相 关的公式可以用Z分数表示:
20
小练习
积差和的值 ∑(X − X )(Y −Y ) 可能小于0吗?
13
第二节 积差相关
14
积差相关的概念和适用条件
积差相关(皮尔逊相关)是揭示两个变量线性相 关方向和程度最常用和最基本的方法。
适用条件: • 要求成对的数据,两列数据都是测量的数据(数值 型变量); • 正态双变量; • 两列变量之间的关系应是线性的,如果是非线性的, 则不能计算线性相关;
• n ≥ 30。
29
排名 1 2 3 4 5 6 7 8 9 10 11
成绩 A B A B B C D C C D E
等级顺序 最终等级
1
1.5
3
4
2
1.5
4
4
5
4
6
7
9
9.5
7
7
8
7
10
9.5
11
11
30
斯皮尔曼等级相关特殊公式
当不存在相同等级时,可使用化简公式:
r=
∑
XY
−
∑
X∑
N
Y
∑X2
−
(∑ X )2
训练组平均分: X p = 8
未训练组平均分: X q = 5
所有人分数的标准差:St= 2.179
代入公式得
:
rpb
=
X
p− st
Xq
⋅
pq = 8 − 5 × 2.179
0.5× 0.5 = 0.688
47
二列相关
二列相关适用的资料是两列数据均属于正态分布,其 中一列变量为等距或等比的测量数据,另一列变量为人 为划分的二分变量(例:及格/不及格;高/矮)。 常用于问答题(主观题)的区分度指标。 当二分变量为真正的二分变量,或不清楚其分布形态 时,使用点二列相关。
35
肯德尔W系数计算公式
W=
s
∑ ∑ =
Ri2 − (
Ri )2 N
1 K 2(N3 − N)
1 K 2(N3 − N)
12
12
Ri -每一被评事物K个等级之和, N-被评价事物的数目,即等级数, K-评价者的数目或等级变量的列数。 肯德尔W系数的取值范围:[0,1]
36
肯德尔U系数
肯德尔U系数又称一致性系数,适用于对K个评价者的一 致性进行统计分析。它与肯德尔W系数所处理的问题相同, 但所处理的资料的获得方法不同,计算的结果也不一样。 如果有N件事物,由K个评价者对其优劣、大小、高低等 单一维度的属性进行评价,若评价者采用对偶比较的方法, (即将N件事物两两配对,然后对每一对中两事物进行比较, 择优选择,优者记1,非优者记0), 则应计算肯德尔U系数。
相关关系
1
引例
考试交卷时间与成绩之间的关系:
2
主要内容
基本概念 积差相关* 等级相关 • 斯皮尔曼等级相关、肯德尔系数 其它相关种类 • 点二列相关、二列相关、φ系数
3
第一节 基本概念
4
变量间的关系
因果关系:一种现象是另一种现象的因,而另一种现 象则是果。 • 例:努力成绩;刺激强度反应强度 共变关系:两事物本身之间没有直接的关系,但它们 都受第三种现象的影响而发生变化。 • 阅读能力与鞋码大小;拥有金表的数量与寿命
N
⋅
Biblioteka Baidu
∑
Y
2
−
(∑Y
N
)2
∑ 6 D2
= 1− N (N 2 −1)
- D为二列等级变量的等级差数
31
例:现有10人的视、听两种感觉通道的反应时(单 位:毫秒),数据见下表。问视、听反应时是否具 有一致性?
32
解:已知N=10, ∑D2=48,带入公式,得:
∑ r
=1−
6 N(N
D2 2 −1)
=1−
25
等级相关计算方法
1. 给X和Y的值分别排序 2. 用积差相关公式计算X和Y的排序,得到斯皮尔曼相关
原始数据
X
Y
3
12
4
10
8
11
10
9
13
3
等级
XY
15 24 33 42 51
26
出现相同等级时的排序方法: 1. 将所有的数(包括相同的数)都按顺序排列 2. 按顺序为每一个数据排序 3. 当两个(或多个)数据相同时,计算这些数据顺序
42
例:有一是非选择测验,共有50题,每题选对得2 分,满分为100分。现有20人的总成绩及对第5题的 选答情况,问第5题区分度如何?
43
解:已知n = 20,第五题答对的10人, 答错的10人, 答对学生的比率: p = 10/20=0.5, 答错学生的比率: q = 10/20=0.5, 答对第五题学生的总分平均成绩: X p = 88.4 答错第五题学生的总分平均成绩: X q = 74.8 所有学生总成绩的标准差:St= 8.88
相关关系:两类现象在发展变化的方向与大小方面存 在一定关系,但不能确定两者中哪个是因,哪个是果。 不存在共变关系(两者并不同时受第三因素的影响)。 • 友谊—态度;看电视—攻击性行为
5
相关 ≠ 因果
6
相关的种类
变化方向 • 正相关:两列变量变动方向相同(e.g. 身高-体重) • 负相关:两列变量变动方向相反(e.g. 练习次数-错误率) • 零相关:两列变量之间无关系(e.g. 相貌-成绩) 相关关系的程度(与特定相关形式的拟合程度) • 高相关:>.70/.80 • 中等程度相关:.30(.40)--.70(.80) • 低相关:<.30/20
12
小练习
相关 -.80所呈现的数据点比相关+.50所呈现的数据点更为 密集地聚集在直线周围。
如果数据密集地聚集在一条从左至右下降的直线上,这 表明这个相关在+.90左右。
相关从未比1.00 大过。
已知r1 = -0.7, r2 = 0.7。下列表述正确的是( )。 A . r1 和 r2 代表的意义相同 B . r2 代表的相关程度高于r1 C. r1 和 r2 代表的相关程度相同 D. r1 和 r2的散点图相同
代入公式得
:rpb
=
X
p− st
X
q
⋅
pq = 88.4 − 74.8 × 8.88
0.5× 0.5 = 0.766
答:第5题与总分相关较高,相关系数为0.766,即第5题的答对答错 与总分有一致性。也可以说该题的区分度较高。
44
小练习
为了检验一种新的学习方法的效果,心理学家随机地将 一个有8名学生分成两组,每组有4个人。训练后,两组 的测验分数如下:
rb
=
X
p− st
X
q
⋅
pq y
=
67.33 − 61.25 × 6.12
0.60× 0.40 0.38667
= 0.62
答:…… 50
Φ 系数
当两个变量都是二分变量时,其相关就称为Φ 系数。
适用资料:四格表(计数)资料。
Y1
Y2
∑
X1
a
b
a+b
X2
c
d
c+d
∑
a+c
b+d a+b+c+d
rφ =
37
38
肯德尔U系数计算说明
39
第四节 其它相关
40
点二列相关 (point-biserial correlation )
点二列相关是考察两列观测值一个为正态连续变 量,一个为“二分”称名变量(男/女;对/错)之间 相关程度的统计方法。
计算公式:
41
点二列相关
点二列相关多用于评价由是非类测验题目组成的测验内部 一致性等问题。 每个题目(二分名义变量)与总分(数值)变量的相关, 称为每个题目的区分度。 相关高说明该题答对答错与总分的一致性高,即区分度高。
48
二列相关
计算公式:
rb
=
X
p− st
X
q
⋅
pq y
y:为标准正态分布中p值对应的高度,查正态分布表能得到
49
例:下表为10名考生一次测验的卷面总分和一道问答题 的得分,试求该问答题的区分度(该问答题满分为10 分, 因此得6分及以上则认为该题通过)。
解:回答题得分被认为划分为通过和不通过两类,应求二列相 关。查正态分布表:当p = 0.60时,y = 0.38667
N
⋅
∑Y
2
−
(∑Y
N
)2
17
下面是10名学生身高与体重的测量结果,问身 高与体重的关系如何?
18
解:已知n=10,利用原始分数计算积差相关的公式得:
r=
∑
XY
−
∑
X ∑Y
N
∑
X
2
−
(∑ X )2
N
⋅
∑
Y
2
−
(∑Y
N
)2
=
83891− 1725× 485 10
= 228.5 = 0.79
298525 − 17252 ⋅ 23609 − 4852 962.5 ⋅ 86.5
52
解: 将上面的数据整理成下面的四格表:
癌症(0) 其它(1) ∑
吸烟(0)
6
4
10
不吸烟(1) 3
7
10
∑
9
11
20
从表中可知,a=6,b=4,c=3,d=7,代入公式得:
rφ =
ad − bc (a + b)(a + c)(b + d )(c + d )
计算下列数据的皮尔逊相关。
X
Y
2
9
1
10
3
6
0
8
4
2
21
X
Y
X2
Y2
XY
2
9
4 81 18
1 10 1 100 10
3
6
9 36 18
0
8
0 64 0
4
2 16 4
8
∑ 10 35 30 285 54
r=
∑
XY
−
∑
X∑
N
Y
54 − 10× 35
=
5
= −0.80
∑
X
2
−
(∑ X )2
N
⋅
∑
Y
2
−
∑ ( X − X )2 ⋅ ∑ (Y − Y )2
16
原始观测值计算公式
r = ∑ (X - X )(Y − Y ) =
∑ (X - X )(Y − Y )
NS X SY
∑ ( X − X )2 ⋅ ∑ (Y − Y )2
∑ (X
-
X
)2
=
∑
X
2
−
(∑ X
N
)2
r=
∑
XY
−
∑
X∑
N
Y
∑X2
−
(∑ X )2
训练 9 7 6 10
未训练 4 7 3 6
• 将数据转化成一个适合点二列相关的形式 • 计算这些数据的点二列相关
45
测验分数 训练情况
9
1
7
1
6
1
10
1
4
0
7
0
3
0
6
0
46
解:已知N = 8,训练组4人, 未训练组4人,
训练人数比率:p = 4/8=0.5,未训练人数比率:q = 4/8=0.5,
的平均数,然后将平均数作为最终的顺序分配到每 个数值中
27
28
为了证明所给分数确实可靠,一位英语老师请 一位同事将期末报告进行排名。排名结果和教师 本人所给的成绩如下:
排名 1 2 3 4 5 6 7 8 9 10 11
成绩 A B A B B C D C C D E
• 计算这些数据的斯皮尔曼 等级相关。
ad − bc (a + b)(a + c)(b + d )(c + d )
51
例:下面是关于吸烟与患癌症之间的一组假设数据。吸 烟状况(X)分为吸烟者与非吸烟者,用0 、1 表示;死亡 原因(Y)分为癌症与其他原因死亡两种,用0 、1表示。 试求它们之间的相关。 X: 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 Y: 0 1 0 0 1 0 0 0 1 1 0 1 1 1 1 0 1 1 1 0
6× 48 10× (102 −1)
=
0.71
答:这10人的视听反应时的等级相关系数为0.71。
33
肯德尔W(和谐)系数
表示多列等级变量相关程度的一种方法。 适用情况: • K个评价者对N个事物进行等级评定 • 一个评价者先后K次对N个事物进行等级评定
34
例:有10人对红、橙、黄、绿、青、蓝、紫七种颜色 按照其喜好程度进行等级评价(最喜欢=1,最不喜欢 =7)。这10人对颜色的爱好是否具有一致性?
7
如何描述相关—散点图
8
奇异值、全距对相关的影响
9
奇异值、全距对相关的影响
10
相关系数的解释
相关系数是用来表示变量间相关关系强度的指标 • (总体:ρ;样本:r) • -1≦r ≦1 • 正负号表示相关的方向;取值大小表示相关的强弱程度
11
相关系数的解释 (续)
相关系数不是等距量表值,更不是等比量表。不能说r = 0.5是r = 0.25的两倍。 存在相关关系,不一定存在因果关系。 计算相关系数要求成对数据。若干个个体中每个个体要有 两种不同的观测值。如每个学生的智力分数和学习成绩。 样本容量要求。以n>=30为宜。 没有线性相关,不一定没有关系,可能是非线性的。