配合度检验、独立性检验与同质性检验PPT(63张)
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4.两阶段随机抽样
当总体容量很大时,直接以总体中的 所有个体为对象,从中进行抽样,在实际 调查或研究中存在很大困难。
采用分阶段的抽样方法,可以缩小实 际抽样的范围,使实际抽样工作能够按研 究设计的要求顺利进行。
两阶段随机抽样(two-stages random sampling)的一般过程是:先将总体分成M
个部分;
第一阶段从这M个部分中随机抽取m个 部分作为第一阶段样本;
第二阶段是分别从这m个部分中抽取一 定数量(ni)的个体构成第二阶段样本。
5.整群抽样
整群随机抽样是先将 总体各单位按一定的标准 分成许多群(小组),然 后按随机原则从这些群中 抽取若干群作为样本。
整群随机取样法的优点是样本比较集中, 适宜于某些特定的研究,尤其是在教育实验 中常用此法。此外,在规模较大的调查研究 中,整群随机取样易于组织,可节省人力、 物力和时间。
不愿意-中 19 20.85 -1.85 3.4225 0.1641
不愿意-下 7 12.72 -5.72 32.7184 2.5722
未定-上 10 15.03 -5.03 25.3009 1.6834
未定-中 20 16.13 3.87 14.9769 0.9285
未定-下 11 9.84 1.16 1.3456 0.1367
例1:为了调查某区重点中学720名高一 学生的视力,首先按视力的情况将他们分 成好(108人)、中(360人)、差(252人) 三种水平。若用分层抽样法抽取120人进行 调查,问各层应抽多少人?
计算:
n好nN N 好1201 70 28 018 n中nN N 中1203 76 20 060 n差nN N 差1207 22 50 242
做好分层随机取样的关键:分类的标准要科 学,要符合实际情况。各层内的差别要小,而层 与层之间的差异则越大越好。
计算各层应抽样的个体数量的计算方法:
⑴.按各层比例计算
ni
n
Ni N
(22.1)
公式中,ni为第i层中被抽取的个体数量
n为整个研究样本中个体的总数量
Ni为第i层中对象的数量 N为总体内个体的数量
也可据S/d查附表20求出样本容量
例2:拟估计某市高校四级英语考试成 绩的总体平均分数。以往考试成绩的标准 差为13,这次的估计最大允许误差为2分, 可信度为95%,问应抽取多大的样本?
Z
2
n
2
d
1.9613
2
16.32163
2
例3:拟对某市初中升入高中入学考试语 文成绩的总体平均数进行估计。根据以同等 难度的试题对同等教育水平的另一城市部分 初中升入高中入学考试语文成绩算出的 S=11.4。若要求估计的最大允许误差为d=3, 可信度为99%,问样本容量应为多少?
19 20.85 20 16.13
7 12.72 11 9.84
53=fy2
41=fy3
55=fx1 59=fx2 36=fx3 150=N
计算理论频数允许有小数,因为χ2分布已被 作为连续型的分布看待。
计算
表10-8 学生报考师范大学的态度与家庭经济状况的χ2检验计算表
愿意-上
fo
fe
fo fe
2.选择检验统计量并计算 对计数数据进行差异检验,可选择χ 2检验
理论频数计算
表10-7 不同家庭经济状况学生报考师范大学的不同态度
家庭 经济状况
对于报考师范大学的态度
愿意
不愿意
未定
总和
上 中 下 总和
18 20.53 20 22.03 18 13.44
56=fy1
27 19.43 10 15.03
整群随机抽样法的缺点是样本分布不均匀, 代表性较差。
二 .样本容量的确定(自学)
1.确定样本容量的意义
在应用中应根据研究所要求的精确度及经费 情况确定样本容量。如果样本容量过小,会影响 样本对总体的代表性,增大抽样误差而降低研究 推论的精确性;样本容量过大,虽然减小了抽样 误差,但可能增大过失误差,并且增加不必要的 人力物力资源的浪费。
等距抽样可以保证样本的成分与总体一 致,但随机性不如单纯随机抽样法。应用中 可将两种方法结合使用。
3.分层随机抽样
分层随机取样简称分层抽样 (stratified sampling 或 hierarchical sampling),是进行大规模研究时常 常使用的抽样方法。
分层抽样的方法:先将总体按照一定标准分 为若干类型(统计上称为层),再根据各层对象 的数量在总体数量中所占的比例,确定从每一种 类型(层)中抽取样本的数量,然后按随机原则 和所确定的各层取样的数量,从各层中取样。
(一)双向表χ2检验的计算
1.理论频数的计算
双向表χ 2检验中,理论频数的计算公式为
fe
fxi f yi N
(16.1)
公式中,fxi表示横行各组实际频数的总和
fyi表示纵列各组实际频数的总和 N表示样本容量的总和
例1:家庭经济状况属于上、中、下的高三毕业生,
对于是否愿意报考师范大学有三种不同的态度(愿意、不
计算
1.由t分布表查得 自由度df=∞时,t1=2.576
tS2
n1
2
d
2.57611.42 3
95.896
2.由t分布表查得 自由度df=96-1时,t2=2.629
n2
tS2
2
d
2.62911.42 3
假如双向表中横行所分的组数用R表示,纵列所分的组数 用C表示,那么,双向表的χ 2检验也称为R×C表的χ 2检验。
在双向表的χ 2检验中,如果要判断 两种分类特征,即两个因素之间是否有依 从关系,这种χ 2检验称为独立性检验。 如果是判断几次重复实验的结果是否相同, 这种χ 2检验称为同质性检验。
99.8100
3.由t分布表查得 自由度df=100-1时,t3=2.627
fo fe 2
f o f e 2
fe
18 20.53 -2.53 6.4009 0.3118
愿意-中 20 22.03 -2.03 4.1209 0.1871
愿意-下 18 13.44 4.56 20.7936 1.5471
不愿意-上 27 19.43 7.57 57.3049 2.9493
1.数据的质量
2.运用统计方法 及数据处理的准确性
在收集数据的 过程中控制
选择恰当的方法
3.样本对总体的 代表性
通过抽样 设计控制
样本对总体的代表性,既涉及到抽样方法, 又涉及到样本的容量。
抽样设计的原则
抽样设计的要求是样本对研究总体有良好 的代表性,即样本的构成与总体保持一致。为 了保证这一点,抽样时必须遵循随机化
简单随机抽样法的局限是:当样本规 模小时,样本的代表性较差。
简单随机取样有两种基本方式:
抽签法(drawing lots)
随机数字表法(random number table)
2.等距抽样
等距抽样(interval sampling)也称为机 械抽样或系统抽样。实施时,先把总体中的 所有个体按一定顺序编号,然后依固定的间 隔取样。
结论:学生是否愿意报考师范大学与 家庭经济状况有显著关系。
双向表的独立性χ 2检验和同质性χ 2检验, 只是检验的意义不同,而方法完全相同。 对于同一组数据所进行的χ 2检验,有时 既可以理解为独立性χ 2检验,又可以理解为 同质性检验,两者无根本区别。
第十四章
抽样原理及方法
统计推断的可靠性与下列因素有关
χ 2检验是对由样本得来的实际频数与理
论频数的分布是否有显著性差异所进行的检
验。其计算公式为:
2 f0 fe2
fe
(15.1)
三大类别
配合度检验 独立性检验 同质性检验
配合度检验
把实得的点计数据只按一种分类标准编 制成表就是单向表。对单向表的数据所进行 的χ 2检验,称为单向表的χ 2检验,也称为
n表示样本容量
Ni表示某层个体总数
σi表示某层标准差
当各个σ没有现成资料可以应用时,可 以先从该层抽一个小样本,由这一小样本 计算出的样本标准差S对σ 进行估计。
ni
n Ni Si Ni Si
(22.3)
分层随机取样法的优点是代表性和推 论的精确性较好。它适用于总体单位数量 较多,并且内部差异较大的研究对象。 分层随机取样法的局限性是要求对总 体各单位的情况有较多的了解,否则就难 以作出科学的分类。
样本容量与抽样误差并不是 直线关系。
确定容量的基本原则是:在 尽量节省人力、经费和时间的 条件下,确保用样本推断总体 达到预定的可行度及准确性。
2.总体平均数估计样本容量的确定
⑴.总体σ已知
X 由 Z
2
n
有
Z
2
n
2
d
(22.4)
其中,最大允许误差为 d X ,可信度为1-α。
配合度检验(goodness of fit test)。
独立性检验
独立性检验主要用以两个或两个以上因素多项分类的计数 资料分析,也就是研究两类变量的关联性和依存性问题。如人 的血型和人的性格是否有关联。
把两个因素实得的点计数据按两种分类标准编制成的表就 是双向表。对双向表的数据所进行的χ 2检验,叫作双向表的 χ 2检验,即双因素的χ 2检验。两个以上因素形成的表称为多 维列联表。重点是两因素的独立性检验。总 Βιβλιοθήκη 150 15010.4802
3.统计决断
双向表的自由度: df=(R -1)(C-1)
查χ 2值表,当 df =(3-1)(3-1)=4 时
2 (4)0.05
9.49
(24)0.0113.3
计算结果为: χ2=10.48*
9.49 <χ2= 10.48 < 13.3,则 0.05 > P > 0.01
愿意、未定),其人数分布如表10-6。问学生是否愿意报考
师范大学与家庭经济状况是否有关系?
表10-6 不同家庭经济状况学生报考师范大学的不同态度
家庭 经济状况
对于报考师范大学的态度 愿意 不愿意 未定
总和
上
18
27
10
55
中
20
19
20
59
下
18
7
11
36
总和
56
53
41
150
解题过程
解:1.提出假设 H0:学生是否愿意报考师范大学与家庭经济状况无关 H1:学生是否愿意报考师范大学与家庭经济状况有关
⑵.最佳配置法
最佳配置法不仅考虑各层的人数比例,而 且考虑到了各层的标准差。当各层内的标准差 已知,应该在标准差大的层内多分配而在标准 差小的层内少分配抽样数量。
最佳配置法可以使得到的样本具有较好的 异质性。
在各层内应抽取个体数计算
ni
n
Ni i Ni i
(22.2)
公式中,ni表示从某一层所抽个体数
可以看到,当α确定之后,总体标准差和 最大允许误差d是决定样本容量的两个因素。
⑵.总体σ未知
X 由 t S
2
n
有
t
S
2
n
2
d
(22.5)
当样本容量n 未确定时,t 值无法确定,
因此一般采用尝试法。
尝试法求样本容量的过程
⑴.将df=∞的 t 值代入公式求出n1, ⑵.将n1 的 t 值代入公式求出n2,… … ⑶.直至前后两次求出的n 相同为止。
第十章
χ2 检验
χ 2检验(chi-square test)是专门用于计 数数据的统计方法。
由于这类数据在整理时,常常以列联表 (contingency table)或交叉表(cross tabulation)呈现,因此这种分析方法又被称 为列联表分析或交叉表分析。
χ 2检验用于对点计而来的离散型数据资 料进行假设检验,对总体的分布不做要求, 也不对总体参数进行推论,因此属于自由分 布的非参数检验。
(randomization)的基本原则。
所谓随机化原则,是指在抽样时,样本中 的每一个体都是按照随机的原理被抽取的,总 体中每一个体被抽到的可能性是相等的。
一.几种重要的随机抽样方法
1.简单随机抽样(simple random sampling) 简单随机抽样就是按照随机原则直接从总体中 抽取出若干个单位作为样本。 简单随机抽样法能保证总体中的每一个对象都 有同等的被抽取到的可能性,并且个体之间都相互 独立。这是在总体异质性不是很大而且所抽取的样 本较小时经常采用的一种形式。