相关系数 -PPT

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

共变关系:两事物本身之间没有直接的关系,但它们 都受第三种现象的影响而发生变化。 • 阅读能力与鞋码大小;拥有金表的数量与寿命

相关关系:两类现象在发展变化的方向与大小方面存 在一定关系,但不能确定两者中哪个是因,哪个是果。 不存在共变关系(两者并不同时受第三因素的影响)。 • 友谊—态度;看电视—攻击性行为
19
积差相关与Z分数

积差相关测量了一个个体在X分布上的位置与在Y
分布上的位置之间的关系。而Z分数提供了一个精确 的方式来表示一个分数在分布中的位置。所以积差相 关的公式可以用Z分数表示:
20
小练习

积差和的值 ∑ ( X − X )(Y − Y ) 可能小于0吗? 计算下列数据的皮尔逊相关。 X 2 1 3 0 4 Y 9 10 6 8 2
37
38
肯德尔U系数计算说明
39
第四节 其它相关
40
点二列相关 (point-biserial correlation )
点二列相关是考察两列观测值一个为正态连续变 量,一个为“二分”称名变量(男/女;对/错)之间 相关程度的统计方法。

计算公式:
41
点二列相关
点二列相关多用于评价由是非类测验题目组成的测验内部 一致性等问题。
• 将数据转化成一个适合点二列相关的形式 • 计算这些数据的点二列相关
45
测验分数 训练情况 9 1 7 1 6 1 10 1 4 0 7 0 3 0 6 0
46
解:已知N = 8,训练组4人, 未训练组4人, 训练人数比率:p = 4/8=0.5,未训练人数比率:q = 4/8=0.5, 训练组平均分: X p = 8 未训练组平均分: X q = 5
27
28
为了证明所给分数确实可靠,一位英语老师请 一位同事将期末报告进行排名。排名结果和教师 本人所给的成绩如下:

排名 1 2 3 4 5 6 7 8 9 10 11
成绩 A B A B B C D C C D E

计算这些数据的斯皮尔曼 等级相关。
29
排名 1 2 3 4 5 6 7 8 9 10 11
X p −Xq 88.4 − 74.8 rpb = ⋅ pq = × 0.5 × 0.5 = 0.766 代入公式得 : st 8.88
答:第5题与总分相关较高,相关系数为0.766,即第5题的答对答错 与总分有一致性。也可以说该题的区分度较高。 44
小练习
为了检验一种新的学习方法的效果,心理学家随机地将 一个有8名学生分成两组,每组有4个人。训练后,两组 的测验分数如下: 训练 9 7 6 10 未训练 4 7 3 6

每个题目(二分名义变量)与总分(数值)变量的相关, 称为每个题目的区分度。

相关高说明该题答对答错与总分的一致性高,即区分度高。
42
例:有一是非选择测验,共有50题,每题选对得2 分,满分为100分。现有20人的总成绩及对第5题的 选答情况,问第5题区分度如何?
43
解:已知n = 20,第五题答对的10人, 答错的10人, 答对学生的比率: p = 10/20=0.5, 答错学生的比率: q = 10/20=0.5, 答对第五题学生的总分平均成绩: X p = 88.4 答错第五题学生的总分平均成绩: X q = 74.8 所有学生总成绩的标准差:St= 8.88

适用条件: • 要求成对的数Fra Baidu bibliotek,两列数据都是测量的数据(数值 型变量); • 正态双变量; • 两列变量之间的关系应是线性的,如果是非线性的, 则不能计算线性相关; • n ≥ 30。

15
积差相关的计算公式
X和Y共同变化的程度 r= X和Y单独变化的程度
SX =
2 X X ( − ) ∑
(X - X )(Y − Y ) ∑ r= NS X SY
相关关系
1
引例
考试交卷时间与成绩之间的关系:
2
主要内容

基本概念 积差相关* 等级相关
斯皮尔曼等级相关、肯德尔系数 其它相关种类 点二列相关、二列相关、φ系数

3
第一节 基本概念
4
变量间的关系
因果关系:一种现象是另一种现象的因,而另一种现 象则是果。 • 例:努力成绩;刺激强度反应强度
7
• 低相关:<.30/20
如何描述相关—散点图
8
奇异值、全距对相关的影响
9
奇异值、全距对相关的影响
10
相关系数的解释

相关系数是用来表示变量间相关关系强度的指标
• (总体:ρ;样本:r)

-1≦r ≦1
• 正负号表示相关的方向;取值大小表示相关的强弱程度
11
相关系数的解释 (续)

相关系数不是等距量表值,更不是等比量表。不能说r = 0.5是r = 0.25的两倍。 存在相关关系,不一定存在因果关系。
N SY =
2 Y Y ( − ) ∑
N
(X - X )(Y − Y ) ∑ r= = NS X SY
∑ (X - X )(Y − Y ) ∑ ( X − X ) ⋅ ∑ (Y − Y )
2
2
16
原始观测值计算公式
(X - X )(Y − Y ) ∑ = r= NS X SY
∑ (X - X )(Y − Y ) ∑ ( X − X ) ⋅ ∑ (Y − Y )
相关从未比1.00
已知r1 = -0.7, r2 = 0.7。下列表述正确的是( )。 A . r1 和 r2 代表的意义相同 B . r2 代表的相关程度高于r1 C. r1 和 r2 代表的相关程度相同 D. r1 和 r2的散点图相同
13
第二节 积差相关
14
积差相关的概念和适用条件
积差相关(皮尔逊相关)是揭示两个变量线性相 关方向和程度最常用和最基本的方法。
ad − bc rφ = (a + b)(a + c)(b + d )(c + d )

计算相关系数要求成对数据。若干个个体中每个个体要有
两种不同的观测值。如每个学生的智力分数和学习成绩。

样本容量要求。以n>=30为宜。
没有线性相关,不一定没有关系,可能是非线性的。
12
小练习
相关 -.80所呈现的数据点比相关+.50所呈现的数据点更为 密集地聚集在直线周围。

如果数据密集地聚集在一条从左至右下降的直线上,这 表明这个相关在+.90左右。 大过。

常用于问答题(主观题)的区分度指标。
当二分变量为真正的二分变量,或不清楚其分布形态 时,使用点二列相关。
48
二列相关

计算公式:
X p − X q pq ⋅ rb = st y
y:为标准正态分布中p值对应的高度,查正态分布表能得到
49
例:下表为10名考生一次测验的卷面总分和一道问答题 的得分,试求该问答题的区分度(该问答题满分为10 分, 因此得6分及以上则认为该题通过)。
36
肯德尔U系数

肯德尔U系数又称一致性系数,适用于对K个评价者的一
致性进行统计分析。它与肯德尔W系数所处理的问题相同, 但所处理的资料的获得方法不同,计算的结果也不一样。

如果有N件事物,由K个评价者对其优劣、大小、高低等
单一维度的属性进行评价,若评价者采用对偶比较的方法, (即将N件事物两两配对,然后对每一对中两事物进行比较, 择优选择,优者记1,非优者记0), 则应计算肯德尔U系数。
35
肯德尔W系数计算公式
2 ( ) R ∑ i 2 R − ∑ i s N W = = 1 1 K 2 (N 3 − N ) K 2 (N 3 − N ) 12 12
Ri -每一被评事物K个等级之和, N-被评价事物的数目,即等级数, K-评价者的数目或等级变量的列数。 肯德尔W系数的取值范围:[0,1]
21

X 2 1 3 0 4 10
Y 9 10 6 8 2 35
X2 4 1 9 0 16 30
Y2 81 100 36 64 4 285
XY 18 10 18 0 8 54
10 × 35 54 − N 5 = = −0.80 r= 2 2 2 2 35 10 (∑ X ) (∑ Y ) 2 2 − ⋅ − 285 30 ∑ X − N ⋅ ∑Y − N 5 5
所有人分数的标准差:St= 2.179 代入公式得 : rpb = X p − X q ⋅ pq = 8 − 5 × 0.5 × 0.5 = 0.688
st 2.179
47
二列相关
二列相关适用的资料是两列数据均属于正态分布,其 中一列变量为等距或等比的测量数据,另一列变量为人 为划分的二分变量(例:及格/不及格;高/矮)。
解:回答题得分被认为划分为通过和不通过两类,应求二列相 关。查正态分布表:当p = 0.60时,y = 0.38667
X p − X q pq 67.33 − 61.25 0.60 × 0.40 rb = ⋅ = × = 0.62 st y 6.12 0.38667
答:……
50
Φ 系数

当两个变量都是二分变量时,其相关就称为Φ 系数。 适用资料:四格表(计数)资料。 X1 X2 ∑ Y1 a c a+c Y2 b d b+d ∑ a+b c+d a+b+c+d
2
= 1−
N ( N 2 − 1)
(∑ X ) 2 ∑X − N ⋅ 6∑ D 2
N
- D为二列等级变量的等级差数
31
例:现有10人的视、听两种感觉通道的反应时(单 位:毫秒),数据见下表。问视、听反应时是否具 有一致性?
32
解:已知N=10, ∑D2=48,带入公式,得:
6 × 48 r = 1− = 1− = 0.71 2 2 10 × (10 − 1) N ( N − 1)

5
相关 ≠ 因果
6
相关的种类

变化方向
• 正相关:两列变量变动方向相同(e.g. 身高-体重)

负相关:两列变量变动方向相反(e.g. 练习次数-错误率)
• 零相关:两列变量之间无关系(e.g. 相貌-成绩)

相关关系的程度(与特定相关形式的拟合程度)
• 高相关:>.70/.80

中等程度相关:.30(.40)--.70(.80)

25
等级相关计算方法
1. 2.
给X和Y的值分别排序 用积差相关公式计算X和Y的排序,得到斯皮尔曼相关 原始数据 等级
X
3 4 8 10 13
Y
12 10 11 9 3
X
1 2 3 4 5
Y
5 4 3 2 1
26
1. 2. 3.
出现相同等级时的排序方法: 将所有的数(包括相同的数)都按顺序排列 按顺序为每一个数据排序 当两个(或多个)数据相同时,计算这些数据顺序 的平均数,然后将平均数作为最终的顺序分配到每 个数值中
r= X ∑Y ∑ ∑ XY − N
2 2 ( ) ( ) Y X ∑ ∑ 2 2 − ⋅ − Y X ∑ ∑ N N 1725 × 485 83891 − 228.5 10 = = = 0.79 2 2 962.5 ⋅ 86.5 1725 485 ⋅ 23609 − 298525 − 10 10
答:这10名学生身高与体重的相关系数为0.79
答:这10人的视听反应时的等级相关系数为0.71。
6∑ D 2
33
肯德尔W(和谐)系数

表示多列等级变量相关程度的一种方法。 适用情况:
• K个评价者对N个事物进行等级评定 • 一个评价者先后K次对N个事物进行等级评定
34
例:有10人对红、橙、黄、绿、青、蓝、紫七种颜色 按照其喜好程度进行等级评价(最喜欢=1,最不喜欢 =7)。这10人对颜色的爱好是否具有一致性?
X ∑Y ∑ ∑ XY −
第三节 等级相关
23
斯皮尔曼等级相关
英国心理学家Spearman在皮尔逊相关的基础上推导而 来,在定义中把点的坐标换成各自样本的等级。

24
斯皮尔曼等级相关
适用条件

适用于两列等级性质的变量(既可以是等级变量,也可 以是连续变量赋以等级顺序转换而来)。 对数据整体分布不作要求
2
2
2 2 X X ( X ) = ∑ ∑ −
(∑ X ) 2 N
N
r=
X ∑Y ∑ ∑ XY −
2 ( ) X ∑ 2 − ⋅ X ∑ N 2 Y ( ) ∑ 2 Y − ∑ N
17
下面是10名学生身高与体重的测量结果,问身 高与体重的关系如何?

18
解:已知n=10,利用原始分数计算积差相关的公式得:
成绩 A B A B B C D C C D E
等级顺序 最终等级 1 1.5 3 4 2 1.5 4 4 5 4 6 7 9 9.5 7 7 8 7 10 9.5 11 11
30
斯皮尔曼等级相关特殊公式

当不存在相同等级时,可使用化简公式:
r=
∑ XY −
2
∑ X ∑Y
(∑ Y ) 2 ∑Y − N
相关文档
最新文档