《教育统计学》期末复习资料总结

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第十章卡方检验
第一节卡方及其分布
一.卡方检验的特点
卡方检验是对样本的频数分布所来自的总体分布是否服从某种理论分布或某种假设分布所做的假设检验,即根据样本的频数分布来推断总体的分布。

它与前面所讲的测量数据的假设检验的不同在于:1.测量数据的假设检验,其数据属于连续变量,而卡方检验的数据属于点计而来的间断变量。

2.测量数据所来自的总体要求呈正态分布,而卡方检验的数据所来自的总体分布是未知的。

3.测量数据的假设检验是对总体参数或几个总体参数之差所进行的假设检验;卡方检验在多数情况下是对总体分布的假设检验。

所以,卡方检验属于自由分布的非参数检验,凡可以应用比率进行检验的资料,都可以用卡方检验。

二.卡方检验统计量
1.卡方检验统计量的基本形式为:
f0表示实际频数,ft表示理论频数,∑表示总和
例题一:从某校随机抽取50个学生,其中男生27人,女生23人,问该校男女生人数是否相同?
解:根据男女生人数相同的假设,其理论频数应为50/2=25.于是
卡方值就等于各组实际频数和理论频数差的平方与理论频数之比,再求其和。

2.卡方值的特点:
可加性;永为正值;值的大小随实际频数与理论频数差的大小而变化(差越小,样本分布与假设理论分布越一致)。

三.的抽样分布
一切可能个样本卡方值的频数分布,就形成了一个实验性的卡方抽样分布。

卡方分布的两个特点:
呈正偏态,右侧无限延伸,但永不与基线相交;随自由度的变化而形成一簇分布形态。

自由度越小,偏斜度越大,自由度越大,分布形态越趋于对称。

第二节单向表的卡方检验
把实得的点计数据按一种分类标准编制成表就是单向表。

卡方检验统计决断原则:
一.按一定比率决定理论频数的卡方检验
二.一个自由度的卡方检验
1.各组ft>=5的情况
2某组ft<5的情况
当df=1,其中只要有一个组的ft<5,就要用亚茨连续性校正法,即在每一组实际频数与理论
频数差数的绝对值平方之前,各减去0.5。


三.频数分布正态性的卡方检验
检验步骤:提出假设
计算卡方值
统计决断
第三节双向表的卡方检验(双因素的卡方检验)
把实得的点计数据按两种分类标准编制成的表就是双向表。

如果把双向表中横行所分的组数用r表示,把纵列所分的组数用c表示,那么双向表的卡方检验也称为rc表的卡方检验。

在双向表的卡方检验中,如果要判断两种分类特征,即两个因素之间是否有依从关系,这种卡方检验称为独立性卡方检验。

计算双向表理论频数的公式为
rc表的卡方值除用理论频数方法计算外,还可以用实际频数法直接求得:
rc表的自由度为:df=(r-1)(c-1)
如果rc表的卡方检验所做的结论为差异显著,但这并不意味着各组之间的差异都显著。

如果需要进一步知道哪些组差异显著,哪些组差异不显著,还需进行四格表的卡方检验。

第四节四格表的卡方检验
一.独立样本四格表的卡方检验
1.缩减公式卡方值的计算
独立样本四格表卡方值的缩减公式为:
2.校正卡方值的计算
当df=1,样本容量总和N<30或N<50时,应对卡方值进行亚茨连续性矫正,矫正公式为:
二.相关样本四格表的卡方检验
1.缩减公式卡方值的计算
相关样本四格表卡方值的缩减公式为:
2.矫正卡方值的计算
当df=1,两个相关样本四格表中(b+c)<30或(b+c)<50,应对卡方值进行亚茨连续性矫正。

矫正公式为:
第十一章相关分析
平均数,标准差是对单变量进行描述的特征量。

若对两个变量之间变化关系进行描述,需要用相关量。

第一节相关的意义
两个变量之间的变化关系,既表现为变化方向,也表现为密切程度上。

具体包括正相关,负相关,零相关三种关系。

强相关或高度相关,中度相关,弱相关或低度相关。

二.相关系数r
范围从负一到正一。

不能对相关系数值进行加减乘除运算。

对于r1=0.3,r2=0.6,r3=0.9,不能说r1与r2,r2与r3的相
关程度之差是相等的,也不能说在相关程度上r2是r1的两倍,r3是r1的三倍。

相关系数只能描述两个变量之间的变化方向及密切程度,并不能揭示两者之间的内在本质联系。

如果,存在相关的两个变量,也不一定存在因果关系。

相关关系中可能是因果关系,也可能不是因果关系。

第二节积差相关
一.概念及其适用范围
1.积差相关的概念
当两个变量都是正态连续变量,而且两者之间呈线性关系时,表示这两个变量之间的相关关系称为极差相关。

2.积差相关的使用条件
两个变量都是由测量获得的连续性数据。

两个变量的总体都呈正态分布或接近正态分布,至少是单峰对称的分布。

(判断总体是否成正态分布的方法很多,其中一种方法就是进行卡方检验)。

必须是成对数据,而且每对数据间相互独立。

两个变量间呈线性关系。

要排除共变因素的影响。

样本容量n>=30,计算出来的极差相关系数才具有有效意义。

3.积差相关系数的定义公式
为了介绍极差相关的定义公式,先介绍协方差。

COV协方差=
协方差是积差相关系数的基础。

它的离差乘积之和的大小,就能反映两个变量之间的关系。

两个离差乘积之和为正,且数值较大,说明两个变量的变化的方向一致,且关系密切;两个离差乘积和为负,且数值较大,说明两个变量的变化方向相反,但关系密切;两个离差乘积和趋于0,说明两个变量之间无相关。

但是协方差是带有具体单位的绝对数量,它不能与范围不同的资料相比较,为了使协方差变成相对数,能与不同单位资料相比较,将两个离差除以相应的标准差,使之成为两个标准分数,然后将两个标准分数的乘积和除以n,便为积差相关系数r.
积差相关系数r=
完全正相关
完全负相关
二.积差相关系数的几种计算方法
1原始数据计算法
2计算器算法
三.相关系数的等距转换及其合并
前面已经讲过,相关系数不可以直接相加求和,因为它不具有等距的单位。

将相关系数r转换成等距单位的Z r值,可用统计学家费舍的Z r转化法,其转换公式为:
因Z r的分布无论总体的大小及其样本容量n的大小,都接近正态分布,故Z r是等距的。

在实际中,可以直接查阅Z r值转换表。

四.相关系数的显著性检验
(一)相关系数的抽样分布
相关系数的抽样分布是一个理论的概率分布。

相关系数抽样分布形态,随总体相关系数和样本容量n的大小而变化。

(二)相关系数显著性检验的基本原理
还不能根据的大小对X与Y之间关系的密切程度做出评价,还要看r在以=0为中心的抽样分布上出现的概率如何。

如果从=0的总体中随机抽取的r在抽样分布上出现的概率较大,则r和=0的差异无显著意义。

这时,即使的数值较大,也不能认为X与Y是相关的;反之,如果从=0的总体中,随机抽取的r在抽样分布上出现的概率较小,则和=0有显著性差异。

这时即使数值较小,也认为X和Y是相关的;所以只有在后一种情况下,才能根据样本的大小来说明X与Y相关关系的密切程度如何。

(三相关系数显著性检验的步骤及其方法
五.两个相关系数差异的显著性检验
第三节等级相关
等级相关是指以等级次序排列或以等级次序表示的变量之间的相关。

主要包括斯皮尔曼二列等级相关和肯德尔和谐系数多列等级相关。

一.斯皮尔曼等级相关
相关系数的计算公式:
相关系数的显著性检验
二.肯德尔和谐系数
第四节质与量的关系
质与量的相关主要包括二列相关,点二列相关,多系列相关。

一.二列相关的概念及其适用范围:
当两个变量都是正态连续变量,其中一个变量被人为划分为二分变量,表示这两个变量之间的关系,称为二列相关。

适用范围:两个变量都是连续变量,总体呈正态分布或接近正态分布,至少是单峰对称分布;两个变量间是线性关系;二分变量是认为划分的,其分界点应尽量靠近中值;样本容量应该大于80.
计算方法
二.点二列相关
概念及其适用范围:当两个变量其中一个是正态连续变量,另一个是真正的二分名义变量,这时表示两个变量之间的相关,称为点二列相关。

有时一个变量虽然并非真正的二分变量,而是双峰分布的变量,也可以用点二列相关来表示。

相关系数的计算:
形式一
形式二
相关系数的显著性检验:
三.多系列相关
概念及其适用范围:当两个变量都是正态连续变量,其中一个变量按不同质被人为分成多种类别以上的正态名义变量。

表示正态连续变量与多类正态名义变量之间的相关,称为多系列相关。

第五节品质相关
两个变量都是按质划分为几种类别,表示这两个变量之间的相关称为品质相关。

品质相关的数据一般是点计数据,根据两个变量的性质及其所分类的多少,分为四分相关,相关和列联相关。

一.四分相关
概念:当两个变量都是正态连续变量,且两者呈直线相关,但两者被人为划分成二分变量,表示两个变量的相关,称为四分相关。

四分相关的算法:皮尔逊余弦PI法:
相关系数的显著性检验:Z检验
二.相关
计算公式:
三.列联相关
当两个变量均被分成两个以上类别,或其中一个变量被分成两个以上类别,表示这两个变量之间的相关,称为列联相关。

计算公式:
相关系数的显著性检验:
第十三章非参数检验。

相关文档
最新文档