教育与心理统计学 第五章:相关系数

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

质与量相关
两列变量中:
一列为等比或等距的测量数据,且总体分布为正 态
另一列为二分变量(性别,结婚状况)
二分变量分真正的二分变量和人为的二分变量
真正的二分变量——离散型二分变量,测量结果只有 两种类型。
人为二分变量——该变量是一个连续型的测量数据, 本身是一个连续的统一体,但是被人为规定的标准划 分为两个类别。
散点的分布形状为椭圆形,可 认为两变量之间具有线性关系。
正相关0<r<1
负相关-1<r<0
当所有的点都分布在一条直线上时, 两变量之间的关系为完全相关。
16
70
B 15
C
68
14
13
66
12 64
11
10
10
12
14
A 16
完全正相关r=1
62
10
12
14
A 16
完全负相关r=-1
散点的分布没有明显集中在某一方向的趋势,形 成圆形区域时,两变量之间的关系为零相关。
二、计算积差相关系数的基本公式
(一)利用标准差和离均差的计算公式:
r xy NSXSY
r xy x2. y2
Sxy r
SXSY
(5-1a) (5-1b) new
协方差(covariance)是两个变量离均差乘积的 平均数。协方差越大,表示X、Y两列变量的 线性关系越强。 用符号COV表示。
第一节 相关、相关系数与散点图
一、什么是相关? (一)事物之间的相互关系
事物之间的相互关系
因果关系(两种事物) 共变关系(三种事物) 相关关系(两种事物)
相关的含义
——事物之间存在关系,但又 不能直接做因果关系解释时, 称事物间的联系为相关。 ——判断两个因素或变量之间 是否有关系,定量地研究这些 关系,称为相关分析。
主要有四分相关、φ相关、列联表相关等。
一、四分相关(tetrachoric correlatio)
(一)适用资料 1.二列变量均为正态连续变量 2.二列变量均被人为地按某一标准划分成两个不同的
K代表等级评定者的数目
0W 1
(公式5-10a) (公式5-10b)
【例5-6】有10人对红、橙、黄、绿、青、蓝、紫七种颜色
进行评价,评价是否一致?获得的数据见表5-11。
W系数是每一评价对象实际得到的等级总和的 变异与被评价对象一致性程度最大时等级总和的 变异的比值。
(二)肯德尔U系数
与肯德尔W系数相同,但是通过对偶比较法 获得等级数据。处理数据的方法不同,计算 结果也不同。
三、相关系数的合并
练习【例题5—2】 查费舍Z—r转换表
适用范围:保证样本同质 一个研究先后多次的调查结果 合成不同研究者的研究结果 合成科研写作时不同地区的取样
第三节 等级相关
一、斯皮尔曼Spearman等级相关 所得到资料是等级顺序,其总体不是正态分布的条件
下,但是线性相关。 (一)适用的资料 1、适用于两列变量,而且是属于等级变量性质具有线
例如:文盲与非文盲
一、点二列相关(point-biseral correlation)
(一)适用资料 两列变量: 一列为等级或等比测量数据,总体分布为正态 一列为真正的二分变量或双峰分布形态,总体分布
形态未知 考察此二列变量的相关程度的统计方法为点二列相关
多用于是非测验题目,即“对或错”。
注意:
当其中的人为划分的二分变量其总体分布不能确定是否为正 态时,要用点二列相关计算
二列相关与点二列相关的主要区别在于变量分布是否均为正 态
(二)计算公式
三、多列相关(multiserials correlation) ( 略)
(一)适用资料 一列为等距或等比的测量数据,总体分布为正态 一列为多分名义变量,总体分布为正态;
性关系的资料,用于解决类别数据和顺序数据的资料
2、不考虑资料是否正态,且不要求n>30。
3、其精确度要差于积差相关
注意:符合Pearson积差相关的数据不要用等级相关
计算
计算公式
1.等级差数法(N 30)
6 D2
rR 1 N (N 2 1)
2.等级序数法
rR
3 N
1
4 N
(
RX RY N 1)
零相关 r=0
第二节 积差相关
一、积差相关及其适用条件
(一)概念
当两个变量都是正态、连续变量,而且二者 之间呈线形关系,表示这两个变量之间的相 关为积差相关
由英国统计学家皮尔逊在20世纪初提出,简 称:Pearson相关系数(软件中常用此名称 )
积差相关又称为积距相关
(二)适用条件
1.要求成对数据,且每对数 据之间是相互独立的
COV
X
X Y
Y
xy
N
N
x、y——两个变量的离均差
x X X y Y Y
例题:
测得某地15名正常成年人的血铅X和24小 时的尿铅Y,试分析血铅与24小时尿铅之 间是否直线相关。
15名自愿者的血铅和24小时尿铅测量值(μmol/L)
编号 X
Y 编号 X
Y
1 0.11 0.14 9 0.23 0.24
相关的类别:
正相关:两个变量向相同的 方向变化. 即一个变量增加, 另一个变量也增加.
负相关:两个变量向相反的 方向变化. 即一个变量增加, 另一个变量反而减少.
零相关:两列变量之间没有 关系,即6一列变量变动时, 另一列变量作无规律变动。
所谓双变量,是对于一个变量X的每一个观 测值X1,X2,……,Xn,同时有另一个变量Y的相 应观测值Y1,Y2,……,Yn与之对应。
第五章 相关关系
第一节 相关、相关系数与散点图 第二节 极差相关 第三节 等级相关 第四节 质与量相关 第五节 品质相关
问题?
通过前面的学习,我们知道,给定 任何一列单变量连续数据,都可以用平 均数和标准差反映数据的总体特征。
然而在实际的心理和教育测量中, 往往会遇到两种事物,两种现象关系的 描述,此时我们又如何去统计处理呢?
C

y
Cx
n(n2 12
1)
Cy
n(n2 12
1)
N为成对数据的数目,n为各列变量相同等级数
公式5-9
二、肯德尔等级相关
(一)肯德尔W系数 肯 德 尔 和 谐 系 数 (Kendall coefficient of
concordan列以上的等级变量,常用符号 W 表示。
例如,每个人的身高和体重是对应的。
二、相关系数
相关系数(coefficient of correlation)——两列变量 间相关程度的数字表现形式。
样本——r
总体——ρ
相关系数的取值范围:-1.00≤r≤1.00
1、相关系数r的范围介于-1到+1之间,是一个比率,常用小数 形式表示
2、“-”、“+”表示双变量数列之间的相关的方向,正值表 示正相关,负值表示负相关。
最终可以得到K列从1至N的等级变量资料
2.计算公式
(1)无相同等级出现
W=
s
1 K 2(N 3 N)
12
W 12 Ri2 3(N 1) K 2 N (N 2 1) N 1
其中:s
(Ri
Ri ) 2 N
Ri2
Ri2 N
Ri 代表评价对象获得的K个等级之和
N代表等级评定的对象的数目
如:成绩分为优、良、中、差
在测验中常用于效度检验,亦可作次数分布表求相关 系数的一种方法
(二)计算公式
rs
st
(yL yH ) X i (yL yH )2 pi
其中, pi为每系列的次数比率
y
为每一名义变量下限的
L
正态曲线高度,由
pi查正态表给出
yH 为每一名义变量上限的 正态曲线高度,由 pi查正态表给出
2.样本容量n>=30
3.两列变量都是连续 变量
例如:每个学生的智力分数 与学业成绩之间的关系。任 意两个个体之间的观测值不 能求相关
数据太少会缺乏代表性
两列数据都是测量数据
4.两列变量总体分布为正态 或接近正态,至少是单峰对 称分布
5.两列变量之间的关系是直 线型的,可由相关散点图的 形状粗略判断
【例5-9 】有一是非选择测验,每题选对得2分。共50题
,满分100分。表5-14是20名学生在该测验中得总成绩及第5 题的选答情况。问该题与测验总分的相关程度如何?
二、二列相关(biseral correlation)
(一)适用资料
两列变量: 一列为等距或等比测量数据,总体分布为正态 一列为人为划分的二分变量,总体分布为正态
X i为每一名义变量对偶的 连续变量的平均数
st为连续变量的标准差
1.00 rs 1.00,相关系数的绝对值越 接近1,其相关程度越高
第五节 品质相关
当两列变量都按质划分成几种类型,此时用品质相 关求一致性程度
品质相关用于R×C(行×列)表的两个变量之间的关联程度。 在编制心理测验、项目分析时, 常用的方法。品质相关处理 的数据类型一般都是计数数据。品质相关依二因素的性质及 分类项目的不同,而有不同的名称和计算方法。
2 0.25 0.25 10 0.33 0.30
3 0.23 0.28 11 0.15 0.16
4 0.24 0.25 12 0.04 0.05
5 0.26 0.28 13 0.20 0.20
6 0.09 0.10 14 0.34 0.32
7 0.25 0.27 15 0.22 0.24
8 0.06 0.09
3.有相同等级时计算等级相关的方法
当等级变量中有相同等级时, R2 会随着等级数目的增多
而有规律的减少,而不管是哪个等级序数;此时应加 入校正数C
计算公式:
n(n 2 1) C
12
rRC
x2 y2 D2
2
x2 y2
其中: x 2 N 3 N 12
C

x
y 2 N 3 N 12
∑X=3.00 ∑Y=3.17 ∑ X2=0.7168 ∑Y2=0.7681 ∑XY=0.7388 n=15
=0.9787
意义: 上例中的相关系数r等于0.9787,说明了15例样
本中血铅与尿铅之间存在相关关系。 但是,这15例只是总体中的一个样本,由此得
到的相关系数会存在抽样误差。
因为,总体相关系数()为零时,由于抽样误差, 从总体抽出的15例,其r可能不等于零。
1.适用资料:采用对偶比较的方法,将N件事
物两两配对,可配成
对,对每一对
中两事物进行比较,择优选择,优者记1,
非优者记0
2.计算公式:
U= (8 rij 2 K rij) 1
N (N 1) K(K 1)
例题:5—8
(公式5-12)
第四节 质与量相关 概念
在计算相关两列变量中,一列为等比或 等距的测量数据,另一列是按性质划分 的类别,欲求这样两列变量的直线相关, 称之为质量相关,包括点二列相关、二 列相关及多系列相关。
(二)计算公式
rpb
X
p st
Xq
pq
(公式5-13)
其中:X p是二分称名变量的一个值对应的连续变量的平均数
X q 是二分称名变量的另一个值对应的连续变量的平均数
p与q是二分称名变量两个值各自所占的比率,p+q=1
st 是连续变量的标准差 1.00 rpb 1.00,相关越高,绝对值越接近于1.00
|r|的意义 极低相关 低度相关 中度相关 高度相关 极高相关
三、散点图 在相关研究中,常用散点图来表示两个变量
之间的关系。
在平面直角坐标系中,以X 、Y两列变量(如X变量) 为横坐标,以另一列变量为纵坐标,把每对数据Xi、 Yi当作同一平面上的N个点(Xi,Yi),一一描绘在 XOY坐标系中,产生的图形即为散点图。
3、“+1”表示完全正相关,“-1”表示完全负相关,“0”表 示零相关,即没有任何相关 4、相关系数取值大小表示相关的强弱程度绝对值0≤∣r∣≤1,绝 对值接近1一般为相关程度密切,接近0值端一般为关系不够密 切。 (考虑样本大小)
|r|的取值与相关程度
|r|的取值范围 0.00-0.19 0.20-0.39 0.40-0.69 0.70-0.89 0.90-1.00
计算肯德尔和谐系数,原始数据资料的获得一般采用等级评定 法,即让K个被试(或称为评价者)对N件事物或N种作品 进行等级评定,每个评价者都能对N件事物(或作品)的好 坏、优劣、喜好、大小、高低等排出一个等级顺序。
适用资料
通过等级评定法获得数据资料的两种情形: (1)K个评定者(或被试)对N件事物或 作品的等级评定 (2)一个评定者(或被试)对N件事物或 作品先后进行K次等级评定
(N
1)
(5-7a) (5-7b)
当等级变量中没有相同等级时,可以直接应 用上述两个公式进行计算
步骤:
(1)赋予等级。分别将两个变量的成绩从优 到劣赋予等级,最优者赋予1,最劣者赋予n ,或采用相反的方式排序,但两变量排序方 式要一致
(2)计算D值与D平方的值或RxRy值 (3)代入公式运算
相关文档
最新文档