第七章 相关分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 存在相关的两个变量,也不一定存在因果 关系。
散点图
Y Y=k P(xi, yi) k
X
X(丈夫收入); Y(妻子收入)
Y
( yi y )
P(xi, yi)
( xi x )
+
X
+
共变异数(协方差)=
(xi x)(yi y)
Y
-
(x x)(y y)
i i
+
X
+
散点越集中于1、3象限,共变异数的和正值越大; 散点越集中于2、4象限,共变异数的和负值越大; 散点越均匀分布于各象限,共变异数的和越趋近于0。
列联相关
• 当两个变量均被分成两个以上类别,或其中 一个变量被分成两个以上类别,表示这两个 变量之间的相关,称为列联相关。
• 列联相关系数的计算公式为:
数据类型与相关系数类型
第一个变量 数据类型 第二个变量数据类型
ห้องสมุดไป่ตู้
二分数据 人为二分型
二 人为二 分 分型 数 据 真正二 分型 四格相关 Φ相关
等级数据 等距数据
7.2 两个变量间的相关分析
• 1 定距—定距尺度的相关:积差相关
当两个变量都是正态连续变量,而且两者之间呈线 性关系时,表示这两个变量之间的相关称为积差 相关(Pearson Cor.)。
X X Y Y r n X Y
积差相关的使用条件
• 两个变量都是由测量获得的连续性数据;
例如,学生的智商与学习努力程度之间的关系, 智商和学习努力程度都是正态连续变量,但学习努 力程度被人为地分成“努力”、“中等”、“不努 力”三种类别,二者的相关称为三系列相关。
又如,不同学习成绩的学生对某种教学改革的 态度分为“极其不赞成”、“不赞成。、“不置可 否”、“赞成”、“极其赞成”。学习成绩与态度 之间的相关称五系列相关。
多系列相关系数的计算公式
7.2 两个变量间的相关分析
4 定性—定性尺度的相关:品质相关
两个变量都是按质划分成几种类别,表示这两 个变量之间的相关称为品质相关。
如,一个变量按性别分成男与女,另一个变量 按学科成绩分成及格与不及格;又如,一个变量 按学校类别分成重点及非重点,另一个变量按学 科成绩分成优、良、中、差,等等。 根据两个变量的性质及所分类别的多少,分为 四分相关、φ 相关及列联相关。
无相同等级的情况
• 当同一位评定者对所有被评事物的评定无相 同等级时,其肯德尔和谐系数的计算公式为:
rw SS R
1 2 3 K n n 12 K表示评定者的人数或同一评定者对同一组被评事物先后评定次数; R表示K个评定者对同一被评事物所给予的等级之和;
n表示被评事物的个数;
SS R 表示R的离差平方和,即SS R R 2
• 两个变量的总体都是呈正态分布,或接近 正态分布,至少是单峰的对称分布。
• 必须是成对数据,而且每对数据之间必须 是相互独立。 • 两个变量之间呈线性关系。 • 要排除共变因素的影响。 • 样本容量要大于等于30,计算出的积差相 关系数才具有有效意义。
7.2 两个变量间的相关分析
2 定序—定序尺度 的相关:等级相关
是指以等级次序排列或以等级次序表示的变量之 间的相关。
当测量得到的数据不是等距或等比数据,而是具 有等级顺序的数据;或者得到的数据是等距或等比数 据,但其所来自的总体分布不是正态的,不满足求积 差相关的要求。这时就要运用等级相关系数。 它主要包括斯皮尔曼(spearman)二列等级相关及 肯德尔(Kendall’s)等级相关.
斯皮尔曼二列等级相关
• 当两个变量值以等级次序排列或以等级次序 表示时,两个相应总体并不一定呈正态分布, 样本容量也不一定大于30,表示这两变量 之间的相关,称为等级相关。 • 其相关系数的计算公式为
D表示两个变量每对数据 等级(不是指原始数据 的等级)之差。
例如:10名高三学生学习潜在能力测验与 自学能力测验成绩如下表所示,问两者相 关情况如何?
Φ相关 Φ相关
真正二分型
二列相关 二列相关 列联系数 二列相关 点二列相 关 列联系数
等级数据
等距数据
|r|0.8 高度相关;
0.5 |r|<0.8 中度相关; 0.3 |r|<0.5 低度相关;
|r|<0.3 关系极弱,认为不相关
• 相关系数的值,仅仅是一个比值。它不是 由相等单位度量而来 ( 即不等距 ) ,也不是 百分比,因此,不能直接作加、减、乘、 除运算。
• 相关系数只能描述两个变量之间的变化方 向及密切程度,并不能揭示两者之间的内 在本质联系。
点二列相关
• 当两个变量其中一个是正态连续性变量,另 一个是真正的二分名义变量(例如,男与女, 已婚和未婚,色盲与非色盲,生与死,等 等),这时,表示这两个变量之间的相关, 称为点二列相关。
例如,18个五岁男女幼儿掷砂袋(150克)成绩如
下表,问性别与投掷成绩的相关情况如何?
多系列相关
当两个变量都是正态连续变量,其中一个变量按不 同质被人为地分成多种类别(两类以上)的正态名义变 量。表示正态连续变量与多类正态名义变量之间的 相关,称为多系列相关。
二列相关
• 当两个变量都是正态连续变量.其中一个变 量被人为地划分成二分变量(如按一定标推将 属于正态连续变量的学科考试分数划分成及 格与不及格,录取与未录取,把某一体育项 目测验结果划分成通过与未通过,达标与末 达标,把健康状况划分成好与差,等等),表 示这两个变量之间的相关,称为二列相关。
二列相关的使用条件
例如,45名学生跳高与跳远成绩(达标及未 达标)如表所示,问跳高与跳远成绩的相关情 况如何?
φ 相关
• 当两个变量都是二分变量,无论是真正的二 分变量还是人为的二分变量,这两个变量之 间的关系,可以用由φ 相关来表示。 • 其计算公式为:
例如,从研究生入学考试的学生中,随机抽 取60人.其大学应届与往届毕业生录取情况 如表11.14,问应届和往届大学毕业生同研 究生录取与否的相关情况如何?
相关分析中的可能错误
• 在对两个时间数列的相关分析中,r所表现的相关程 度同样本数据的时间范围有很大关系。比如.两个 现象在某段时期内的相关关系为线性的.而整个发 展过程可能是非线性的,如图(a);或者在某段时期 内无线性关系,而整个发展过程可能存在线性关系, 如图(b)
相关分析中的可能错误
• 根据样本数据计算的r带有—定的随机性, 样本数据越少,随机性则越大。对于不相关 的两个变量计算出的r不—定为0,有时甚至 会很高。但较大的r值不一定就意味着两个 变量之间确实存在着较高的相关;反之,较 小的r也不一定就意味着变量之间无相关关 系,这就是所谓的虚假相关。为避免出现分 析上的错误,在实际应用r时,必须对r的显 著性进行检验,r在统计上是否显著,才是 它能否作为变量之间线性关系度量的依据。
相关分析。
7.1 相关分析的基本概念与分析过程
• 线性相关分析与相关系数 研究两个变量间线性关系的程度,称为线性相关分析。相关 系数是描述这种线性关系程度和方向的统计量,用r表示。 • 如果变量Y与X间是函数关系,则r=1或r=-1;如果变量Y与X 间是统计关系,则-1<r<1, 如果x,y变化的方向一致,则称 为正相关,r>0,如果x,y变化的方向相反,则称为负相关, r<0;而r=0表示无线性相关,一般地, |r|>0.95 存在显著性相关;
1 2 3 K n n K T 12 3 T m m 12
rw
SS R
m表示相同等级的个数
同一位教师对5份研究生入学考试政治试卷根 据标准先后3次等级评定结果如下表所示,问3 次评定结果的相关程度如何?
SS R R
2
R
n 65
2
T 2 1 3
四分相关
• 当两个变量都是正态连续变量,且两者呈直 线关系,但两者都被人为地划分成二分变量, 表示这两个变量的相关,称为四分相关。
例如,将学科成绩划分成及格与不及格, 达标与未达标,通过与未通过,将对事物的 态度划分成赞同与反对:将对问题的回答划 分成对与错,等等。
四分相关
• 四分相关有多种计算方法,最常用的是皮尔 逊的余弦π 法,其计算公式为:
学习潜在能力
学生序号
自学能力
X 90 84 76 71 71 71 69 68 66 64
等级 1 2 3 5 5 5 7 8 9 10
Y 3 2 5 7 8 6 8 7 10 9
等级差数
差数平方
等级 2 1 3 5.5 7.5 4 7.5 5.5 10 9 -1 1 0 -0.5 -2.5 1 -0.5 2.5 -1 1 1 1 0 0.25 6.25 1 0.25 6.25 1 1 18
相关分析中的可能错误
• r的计算涉及到变量的标准差和协方差,其数值大小易 受极端值的影响,特别是与自变量x的变化范围有很大 关系。这时会产生两种情况:—是多数观察值不相关 时,个别极瑞值引起中度相关,如图8.4(a);二 是大多数观察值存在线性相关,个别极端值使观察数 据呈非线性相关.如图8.4(b)。
R
n
2
例如,4位教师对6个学生作文竞赛的名次 排列次序如表第(2)列所示,问评定的一 致性程度如何?
n 6; K 4 SS R R R / n 194
2 2
rw
194 1 2 3 4 6 6 12
0.693
有相同等级的情况
• 当同一位评定者对所有被评事物的评定有相同 等级时,其肯德尔和谐系数的计算公式为:
①两个变量都是连续变量,且总体呈正态分布, 或总体接近正态分布,至少是单峰对称分布。 ②两个变量之间是线性关系。 ③二分变量是人为划分的,其分界点应尽量靠近 中值。 ④样本容量应当大于80。
二列相关系数的计算公式
例:15名初三毕业生,其中重点中学有5人,非重点 中学有10人,其高中入学考试英语分数如表11.10, 问中学的类别与英语考试成绩的相关情况如何?
rw
45 470 65 5 0.802
2
1 2 3 3 5 5 3 3 12
7.2 两个变量间的相关分析
• 3 定性—定距尺度的相关:质量相关
质量相关是指一个变量为质,另一个变量为量,
这两个变量之间的相关。
如智商、学科分数、身高、体重等是表现为量
的变量,男与女、优与劣、及格与不及格等是表现 为质的变量。 质与量的相关主要包括二列相关、点二列相关、 多系列相关。
1 2 3 4 5 6 7 8 9 10 总和
计算等级相关系数: 6 D 6 18 rR 1 1 0.891 2 2 n n 1 10 10 1
2
肯德尔和谐系数(Kendall’s tau-b)
• 当多个(两个以上)变量值以等级次序排列 或以等级次序表示,描述这几个变量之间的 一致性程度的量,称为肯德尔和谐系数。它 常用来表示几个评定者对同一组学生成绩用 等级先后评定多次之间的一致性程度。
-
相关分析的原理
• 若 xy >0,则x与y之间为正相关; • 若 xy <0,则x与y之间为负相关; •若
xy →0,则x与y之间无相关关系。
相关分析中的可能错误
• 相关系数r是对两个变量 之间线性关系的简单度量, 因此当r=0时,只表示 两个变量之间不存在线性 相关关系,并不说明变量 之间没有任何关系,比如, 它们之间可能存在非线性 关系,如图(e)就属于这 种情况。
第七章 相关分析
双变量关系的描述技术
2014-4-5
第七章 相关分析
• 7.1 相关分析的概念和相关分析过程 • 7.2 两个变量间的相关分析 • 7.3 偏相关分析 • 7.4 距离分析
7.1 相关分析的基本概念与分析过程
• 相关关系与相关分析
事物间的相互关系可以分为两种类型:函数关系和统计关系 (相关关系)。函数关系是一一对应的确定性关系;统计关 系则是不稳定、不确定的,意味着一个变量虽然受另外一个 (或一组)变量影响,却并不由这一个(或一组)变量完全 确定。例如家庭教育消费支出与家庭收入之间的关系就是一 种相关关系。 在复杂的教育系统中,事物与现象之间的联系大多表现 为相关关系而不是函数关系。衡量事物(或变量)之间相关 程度的强弱,并用适当的统计指标表示出来,这个过程就是