第十章 卡方检验..
现代心理与教育统计学(张厚粲)课后习题答案
现代心理与教育统计学(张厚粲)课后习题答案第一章绪论(略)第二章统计图表(略)第三章集中量数4、平均数约为36.14;中位数约为36.635、总平均数为91.726、平均联想速度为5.27、平均增加率约为11%;10年后的毕业人数约有3180人8、次数分布表的平均数约为177.6;中位数约为177.5;原始数据的平均数约为176.7第四章差异量数5、标准差约为1.37;平均数约为1.196、标准差为26.3;四分位差为16.037、5cm组的差异比10cm组的离散程度大8、各班成绩的总标准差是6.039、次数分布表的标准差约为11.82;第一四分位为42.89;第三四分位为58.41;四分位差为7.76第五章相关关系5、应该用肯德尔W系数。
6、r=0.8;r R=0.79;这份资料只有10对数据,积差相关的适用条件是有30对以上数据,因此这份资料适用等级相关更合适。
7、这两列变量的等级相关系数为0.97。
8、上表中成绩与性别有很强的相关,相关系数为0.83。
9、r b=0.069小于0.2.成绩A与成绩B的相关很小,成绩A与成绩B的变化几乎没有关系。
10、测验成绩与教师评定之间有一致性,相关系数为0.87。
11、9名被试的等级评定具有中等强度的相关,相关系数为0.48。
12、肯德尔一致性叙述为0.31。
第六章概率分布4、抽得男生的概率是0.355、出现相同点数的概率是0.1676、抽一黑球与一白球的概率是0.24;两次皆是白球与黑球的概率分别是0.36和0.167、抽一张K的概率是4/54=0.074;抽一张梅花的概率是13/54=0.241;抽一张红桃的概率是13/54=0.241;抽一张黑桃的概率是13/54=0.241;抽不是J、Q、K的黑桃的概率是10/54=0.1858、两个正面,两个反面的概率p=6/16=0.375;四个正面的概率p=1/16=0.0625;三个反面的概率p=4/16=0.25;四个正面或三个反面的概率p=0.3125;连续掷两次无一正面的概率p=0.18759、二项分布的平均数是5,标准差是210、(1)Z≥1.5,P=0.5-0.43=0.07(2)Z≤1.5,P=0.5-0.43=0.07(3)-1.5≤Z≤1.5,p=0.43+0.43=0.86(4)p=0.78,Z=0.77,Y=0.30(5)p=0.23,Z=0.61,Y=0.33(6)1.85≤Z≤2.10,p=0.482—0.467=0.01511、(1)P=0.35,Z=1.04(2)P=0.05,Z=0.13(3)P=0.15,Z=-0.39(4)P=0.077,Z=-0.19(5)P=0.406,Z=-1.3212、(1)P=0.36,Z=-1.08(2)P=0.12,Z=0.31(3)P=0.125,Z=-0.32(4)P=0.082,Z=-0.21(5)P=0.229,Z=0.6113、各等级人数为23,136,341,341,136,2314、T分数为:73.3、68.5、64.8、60.8、57、53.3、48.5、46.4、38.2、29.515、三次6点向上的概率为0.054,三次以上6点向上的概率为0.06316、回答对33道题才能说是真会不是猜测17、答对5至10到题的概率是0.002,无法确定答对题数的平均数18、说对了5个才能说看清了而不是猜对的19、答对5题的概率是0.015;至少答对8题的概率为0.1220、至少10人被录取的概率为0.1821、(1)t0.05=2.060,t0.01=2.784(2)t0.05=2.021,t0.01=2.704(3)t0.05=2.048,t0.01=2.76322、(1)χ20.05=43.8,χ20.0,1=50.9(2)χ20.05=7.43,χ20.0,1=10.923、(1)F0.05=2.31,F0.01=3.03(2)F0.05=6.18,F0.01=12.5324、Z值为3,大于Z的概率是0.0013525、大于该平均数以上的概率为0.0826、χ2以上的概率为0.1;χ2以下的概率为0.927、χ2是20.16,小于该χ2值以下概率是0.8628、χ2值是12.32,大于这个χ2值的概率是0.2129、χ2值是15.92,大于这个χ2值的概率是0.0730、两方差之比比小于F0.05第七章参数估计5、该科测验的真实分数在78.55—83.45之间,估计正确的概率为95%,错误概率为5%。
卡方检验医学统计学
卡方检验医学统计学卡方检验是医学统计学中最常用的检验方法之一,它可用于测量两组数据之间的关联性。
在研究中,我们常常需要探究二者之间是否存在某种关联,卡方检验就是我们解决这个问题的利器。
卡方检验的原理卡方检验的原理是基于期望频数和实际频数的差异来检验两个变量之间的关系。
期望频数指的是在假设两个变量独立的情况下,我们可以根据样本量和其他条件,计算出不同组之间的理论值。
而实际频数则是实验中观察到的实际结果。
卡方检验的步骤如下:1.建立零假设和备择假设。
零假设指的是假设两个变量之间不存在任何关系,备择假设则是反之。
2.确定显著性水平 alpha,通常取值为0.05。
3.构建卡方检验统计量。
计算方法为将所有观察值与期望值的差平方后,再除以期望值的总和。
4.根据自由度和显著性水平,查卡方分布表得到 P 值。
5.如果 P 值小于显著性水平,拒绝零假设;否则无法拒绝零假设。
卡方检验的应用卡方检验可以应用于多个领域,其中医学统计学是最为常见的一个。
卡方检验可以用来分析两个疾病之间的相关性或者测量一种治疗方法的效果。
举个例子,某药厂要研发一种新的药物来治疗心脏病。
为了验证该药的疗效,实验组和对照组各50 人。
在 6 个月的治疗后,实验组和对照组中分别有 10 人和 15 人痊愈了。
卡方检验的作用就在于此时可以用来检验两组之间的差异是否具有统计学意义。
除了医学统计学之外,卡方检验在社会学、心理学、市场营销、物理等领域也都有广泛应用。
卡方检验的限制虽然卡方检验被广泛应用于各种实验和研究中,但它也有着自己的限制。
其中比较明显的一点就是对样本量有一定的要求。
当样本量较小的时候,期望频数的计算就会出现一定的误差,进而导致检验结果不准确。
此外,在面对非常态分布数据时,卡方检验也会出现问题。
当数据呈现正态分布时,卡方检验的准确性最高。
然而,实际上,很多数据都呈现出非正态分布,这时需要使用一些修正方法来解决。
卡方检验是医学统计学中最常用的统计方法之一,它可以用来测量两个变量之间的关联性。
第十章卡方检验
2 检验的基本公式,
表,确定其差异是否显著。(常用的方法)
其关键步骤是计算理论次数与确定自由度。 (1)将实际次数分布的统计量代入所选的理论分布函数方程,求各分组 区间的理论频率,然后乘以总数得各分组区间的理论次数;
16 (2)将分组的数目减去计算理论次数时所用统计量的数目即自由度。
[例10-5] 表10-2所列资料是 552 名中学生的身高次数分布,问这些学生的 身高分布是否符合正态分布?
3、去除样本法; 4、使用校正公式。
7
第二节
察次数分布与某理论次数是否有差别。
配合度检验
配合度检验(goodness of fit test)主要用于检验单一变量的实际观
它检验的内容仅涉及一个因素多项分类的计数资料,是一种单因素检验 (one-way test)。
一、配合度检验的问题
(一)统计假设
2、根据各组的理论次数与实际次数计算
2 值,得 2 3.905
3、确定自由度。本题共分 11 组,在计算理论次数时,对最高组和最低
组两极端次数进行了合并,合并后为 9 组。在计算理论次数的过程中共用到
平均数、标准差、总数 3 个统计量,故本题的自由度 df=9-3=6 。 4、查
2 表,得 02.05 12.6, 02.01 16.8
表10-2
身高 分组 169 ~ 166 ~ 163 ~ 160 ~ 157 ~ 154 ~ 151 ~ 148 ~ Xe 170 167 164 161 158 155 152 149 fo 2 7 22 57 110 124 112 80
书中数字错!
552 名学生身高的理论次数分布及卡方检验
x 15.38 12.38 9.38 6.38 3.38 0.38 -2.62 -5.62 Z 3.03 2.44 1.85 1.26 0.67 0.07 -0.52 -1.11 y 0.0040 0.0203 0.0720 0.1840 0.3187 0.3979 0.3484 0.2154 p 0.0023 0.0120 0.0426 0.1088 0.1885 0.2354 0.2061 0.1274 fe 1 7 24 60 104 130 114 70
【实用】卡方检验(2)PPT文档
χ2分布有以下几个特点:
(1)χ2分布呈正偏态,右侧无限延伸, 但永不与基线相交。
(2)自由度越小,χ2分布偏斜度越大; 自由度越大,χ2分布形态越趋于对称。
P172:
从某校随机抽取50个学生,其中男生27人, 女生23人,问该校男女生人数是否相等?
第二节 单向表的卡方检验
把实得的点计数据按一种分类标准编制 成表就是单向表。对于单向表的数据所进行 的卡方检验就是单向表的卡方检验。
第十章 卡方检验
第一节 χ2及其分布
卡方检验是对总体分布是否服从某种理 论分布或某种假设分布所作的假设检验。
某小学历届毕业生汉语拼音测验平均分数 为66分,标标准准差差为1。4,以同样的试题测验应 届毕业生,从中随机抽取18份 ,算得平 均分为69分,问该校应届与历届毕业生汉 语拼音测验成绩是否一样?
第三节 双向表的卡方检验
把实得的点计数据按两种分类标准分类后 所编制成的表就是双向表。对双向表的数据进 行的χ2检验,就是双向表的χ2检验。
在双向表的χ2检验中,如果要判断两种分 类特征,即两个因素之间是否有依从关系,这 种检验称为独立性χ2检验。
例1:P178。
家庭经济状况属于上、中、下的高三毕业 生,对于是否愿意报考师范大学有三种不同 的态度(愿意、不愿意、未定),其人数分 布如下表所示。问学生是否愿意报考师范大 学与家庭经济状况是否有关系?
第四节 四格表的卡方检验
独立样本四格表的χ2检验,就是最简单的双 向表即22表的χ2检验。它既可以用缩减公式来 计算χ2值,又可以用χ2检验的基本公式来计算 χ2值。
第三节
双向表的卡方检验
卡方检验是对总体分布是否服从某种理论分布或某种假设分布所作的假设检验。
第十章卡方检验描述
步骤一 ( fo - fe )
步骤二
步骤三
fo (%) fe (%) 60.9 66.7
( f o - f e )² ( f o - f e )² /fe
社会学
— 5.8
33.5
0.5028
经济学
文学 信息学
76.0
61.3 69.2
66.7
66.7 66.7
9.3
— 5.4 2.5
86.5
28.9 6.4
α = 0.05
χ² = 5.1783
0
χ²α (2) = 5.99
2
卡方检验的概念
(一)卡方检验:多个总体的比较
从总体的不同类别中抽取元素构成样本,样本包含总体中各个类 别的元素,对不同类别的目标量之间是否存在显著性差异进行的检验 称为拟合优度检验。 拟合优度检验是 χ ² 检验中重要的一部分,可以同时对多个总 体进行比较。
第十章 卡方检验
卡方分布就是对样本的频数分布所来自的总体分布是否服从某种理论 分布或某种假设分布所作的假设检验,即根据样本的频数分布来推断 总体的分布。 不同于回归分析以及 t 检验和方差分析(三者都属于参数统计), 它属于自由分布的非参数检验(非参数统计)。 它可以处理一个因素分为多种类别或多种因素各有多种类别的资料。 凡是可以应用比率进行检验的资料,都可以用卡方检验。 卡方检验是用途很广的一种假设检验方法。例如,它包括两个或多个 样本率及构成比之间的差别有无统计意义的推断,分类变量配对设计 下的卡方检验以及频数分布的拟合优度检验等。 在社会统计学中应用最多的用于分类变量之间拟合优度和独立性检验 的 χ² 检验。 χ² 检验可以判断变量之间是否相关,但,不能判断相关程度为多大。
10.卡方检验-10
式中 a、b、c、d 分别为四格表中的四个实际频数, n 为总例数。
3.
检验的连续性校正问题
检验的校正公式:
一般原则是: ① 当n ≥40且所有T≥ 5时,用 检验的理 论公式(9-1)或专用公式(9-9);若所得的P ≈ α , 改用Fisher确切概率法。
② 当n≥40但有1≤T<5时,用 校正公式(9-10)或(9-11)。
甲处理 + -
乙处理
合计
+ a c a+c
b d b+d
合计 a+b c+d n
两个相关样本率比较检验统计量
的计算公式:
b + c≥40
b + c <40
例10-4 用两种不同的方法对53例肺癌患者进行诊 断,收集得表10-4的资料,问两种方法的检测 结果有无差别? 甲法 + 合计 乙法 + 25(a) 11(c) 36 2 (b ) 15(d) 17 合计 27 26 53
2 2 30 25 10 17 82 30 10 17 2530 17 10 25 =9.98
(3)确定概率P值和判断结果 自由度ν= (2-1) (2-1) =1 查2界值表,20.005(1)=7.88,2>20.005(1),P< 0.005, 按 =0.05的水准,拒绝H0,接受H1,可认为婴儿 腹泻与喂养方式之间存在关联性。
2
2. 行×列表资料经2检验后,如假设检验 的结果是拒绝无效假设,只能认为各总体 率或构成比之间总的来说有差别,但并不 是说它们彼此之间都有差别,如例10-7的 检验结果为拒绝了H0,仅能说明甲、乙两 城市各种空气质量类别所占的比例不同, 不能说明全不相同。如果想进一步了解彼 此之间的差别,需将行×列表分割,再进 行2检验(详见本章第四节)。
第十章统计卡方检验.ppt
二、单因素的2检验(配合度检验)(P297)
赞成 39
反对 21
解: (1)提出假设: H0:fo= fe H1: fo fe
(2)计算检验统计量
2 fo fe 2 (39 30)2 (21 30)2 5.4
fe
30
30
(3)查2分布表,确定临界值:
• 已经统计出小学生识字的优秀率为0.2,及 格率为0.7(不包括优秀在内),不及格率 为0.1,现在进行识字教学的改革实验,实 验后随机抽取了500名学生进行测试,结果 有123人达到优秀水平,有346人达到及格 水平,有31人没有及格。问识字教学的改 革实验是否有显著性效果?
第二节 独立性检验(二因素的2检验)
值表中找到临界值 。
(五)做出接受虚无假设或拒绝虚无假设的统计决策。其原 则是:
• 1.当公式(10.1)所确定的实得 值大于临界 时,可拒绝 虚无假设(H 0),并接受备择假设。
• 2.当公式(8.1)所确定的实得 值小于临界值 时,便没有 充分理由拒绝虚无假设(H 0),故暂认为虚无假设是成立 的,把虚无假设先接受下来。
2 0.05(1)
3.84
2 0.01(1)
6.63
(4)统计决断:02.05(1)
2
2 0.01(1)
0.01 p 0.05
故拒绝虚无假设,接受备择假设,即高中生对文 理分科的意见差异显著。
•
2
检验的假设(p293)
– 分类相互独立,互不包容
– 观测值相互独立
– 期望次数的大小
自学能力
实际观察次数(f0) 15
理论次数(fe又称
18
卡方检验
统计决断
双向表的自由度: df=(r -1)(c -1) 查χ2值表,当 df =(3-1)(3-1)=4 时
(24)0.05 9.49
(24)0.01 13.3
9.49 <χ2= 10.48 < 13.3,则 0.05 > P > 0.01 结论:学生是否愿意报考师范大学与 家庭经济状况有显著关系。
1 :2 :1 ?
解:1.提出假设 H0:健康状况好、中、差的人数比例是1:2:1 H1:健康状况好、中、差的人数比例不是1:2:1 2选择检验统计量并计算 对点计数据进行差异检验,可选择χ2检验
(3)计算理论次数
fo
fe
13.5 27.0 13.5
54
好 中 差
总 和
15 23 16
54
4、计算卡方值
5、比较决策 查χ2值表,当 df =k -1=2 时
(22)0.05 5.99
χ2= 1.22 < 5.99,则 P > 0.05
结论:理论频数与实际频数差异不显著,表明该 校老年教师健康状况的人数比例是1:2:1。
χ2的连续性校正
例3:历年优秀学生干部中男女比例为2:8,
今年优秀学生干部中有3个男生,7个女生。 问今年优秀学生干部的性别比例与往年是否 有显著差异?
六、四格表的χ2检验
如果r×c表的χ2检验所作的结论为差异
显著,这并不意味着各组之间的差异都 显著。如果需要进一步知道哪些组差异 显著,哪些组差异不显著,还需进行四 格表的χ2检验。
1、四格表的含义
四格表是只有两行、两列的双向表。也就
是有两个变量,每一个变量各被分为两类
的双向表
变量Ⅰ 变 量 Ⅱ 合计 A C A+C B D B+D 合计 A+B C+D N=A+B+C+D
练习题解答:第十章交互分类与卡方检验
第十章 交互分类与2χ检验练习题:1. 为了研究婆媳分居对于婆媳关系的影响,在某地随机抽取了180个家庭,调查结果如下表所示:(1) 计算变量X 与Y 的边际和(即边缘和)X F 和Y F 并填入上表。
(2) 请根据表10-26的数据完成下面的联合分布的交互分类表。
表10-27(3) 根据表10-27指出关于X 的边缘分布和关于Y 的边缘分布。
(4) 根据表10-27指出关于X 的条件分布和关于Y 的条件分布。
解:(1)Y F (从上到下):50;30;100.X F (从左到右):115;65.(2)P 11=15/180;P 21=35/180;1Y F N =50/180;P 12=20/180;P 22=10/180;2Y F N =30/180;P 13=80/180;P 23=20/180;3Y F N =100/180;1X F N =115/180;2X F N =65/180.(3)关于X 的边缘分布:x 分居 不分居 P(x)115/18065/180关于Y 的边缘分布: y 紧张 一般 和睦 P(y)50/18030/180100/180(4)关于X 的条件分布有三个:y=“紧张” x 分居 不分居 P(x)15/5035/50y=“一般” x 分居 不分居 P(x)20/3010/30y=“和睦” x 分居 不分居 P(x) 80/10020/100关于y 的条件分布有两个: X=“分居”y紧张 一般 和睦 P(y)15/11520/11580/115X=“不分居”y紧张 一般 和睦 P(y)35/6510/6520/652. 一名社会学家关于“利他主义”的研究中,对被调查者的宗教信仰情况进行 了分析,得到的结果如下表所示:表10-28(1)根据表10-28的观察频次,计算每一个单元格的期望频次并填入表10-29。
表10-29 (2)根据表10-28和表10-29计算2χ,计算公式为2()2o e ef f f χ-=∑。
第十章卡方检验
第二节 单向表的卡方(χ2)检验
二、一个自由度的χ2检验
检验的步骤:
(2)计算χ2值
本例df=1,两组的理论频数均为ft=38>5。
2
f0 ft 2
ft
表10.4 喜欢与不喜欢体育人数的χ2值计算表
f0 ft f0-ft (f0-ft)2 (f0-ft)2/ ft
喜欢 50 38 12 144 3.79 不喜欢 26 38 -12 144 3.79
f0 ft 2
求χ2=5.202
ft
29
第二节 单向表的卡方(χ2)检验
三、频数分布正态性的χ2检验 检验的步骤: (3)统计决断 正态性χ2检验的自由度df=K-3。K是合并后保留下来的组数。 df=7-3=4。 自由度df=K-3的原因: 1单向表的χ2检验受到∑(f0-ft)=0一个因子的限制。 2应用Z=(X-X)/ σX的公式计算理论频数时,运用了X和 σX两
12 16 4
3.5
12.25 12.25/16=0.77
非团员 8 4 4
3.5
12.25
12.25/4=3.06
总和 20 20
χ2=3.83
25
第二节 单向表的卡方(χ2)检验
二、一个自由度的χ2检验 2、某组理论频数ft<5的情况 检验的步骤: (3)统计决断 根据df=1,查χ2值表,χ2(1)0.05=3.84, 由于χ2=3.83<3.84=χ2(1)0.05,则P>0.05, 于是保留H0而拒绝H1。 其结论为:该校共青团员的比率与全区没有显著性差异。
4
第一节 卡方(χ2)及其分布
比率和比率之差的假设检验,是对二项分布数据的假设检验。 ——处理一个因素分成两类, ——或者两个因素,每个因素都分为两类的资料。 ——最多只能同时比较两组比率的差异。
第十章 卡方检验
率,也有理论概率,如二项分布、正态分布等。
二、配合度检验的应用
(一)检验无差假说
无差假说,是指各项分类的实计数之间没有差异, 也就是假设各项分类之间的机会相等,或概率相 等,因此理论次数完全按概率相等的条件计算。 即:
1 理论次数=总数× 分类项数
例10-1:随机抽取60名学生,询问他们在高中是 否需要文理分科,赞成分科的39人,反对分科的 21人,问他们对分科的意见是否有显著差异? (p298)
去除样本法
使用校正公式
第二节 配合度检验
配合度检验(goodness of fit test)主要用于 检验单一变量的实际观察次数分布与某理论次数
是否有差别。由于它检验的内容仅涉及一个因素
多项分类的计数资料,故可以说是一种单因素检 验(One-way test)。
一、配合度检验的一般问题
(一)统计假设 统计假设如下:
有的人因此用t检验检验两者的差异,这样做行吗?
第一节
2
2
检验的原理
一、 检验的假设
(一)分类相互排斥,互不包容
检验中的分类必须相互排斥,这样每一
2
个观测值就会被划分到一个类别或另一个类别 之中。此外,分类必须互不包容,这样,就不 会出现某一观测值同时划分到更多的类别当中 去的情况。
(二)观测值相互独立
3)统计决策
查 值表,当df 1时,
2 2 2 0.05
3.84,
2 0.01
6.63 ,
算得 值在两者之间,所以, p 0.05或 0.01
2 0.05
2 2 0.01
答:可以推论说,学生 们对高中文理分科的态 度 有显著差异,做这一结 论犯错误的概率在 .05至 0 0.01之间。
统计学教程-卡方检验
Lower
Upper
3.000
.992
9.068
2.500
.987
.833
.684
100
6.334 1.016
❖ 结果显示,OR=3.00,说明吃了该食物者发生食物中
毒的可能性是没有吃该食物者的3.00倍?
分层卡方检验
例4 某研究人员对3家医院的卫生服务情况进行 了调查,现希望分析寻求就诊和性别之间有无 联系。(数据见cmh.sav)
Exact Sig. (1-sided)
Likelihood Ratio
14.550
1
.000
Fisher's Exact Test
.000
.000
Linear-by-Linear Associ ati on
13.910
1
.000
McNemar Test
.013c
N of Valid Cases
58
poison
Yes 10
No 30
6.4
33.6
6
54
9.6
50.4
16
84
16.0
84.0
Total 40
40.0 60
60.0 100 100.0
❖ 这就是两变量的四格表。
两分类变量间关联程度的度量
结果分析
Chi-Square Tests
Pearson Chi-Square Continuity Correction a
a. Computed onlyfor a 2x2 table
b. 0 cells (.0%) have expected count less than 5. The minimum expected count is 5. 16.
第10章--卡方检验-(Chi-PPT课件
例题:某学校对学生的课外活动内容进行调查,结果 整理成下表:
-
18
应用举例一
女性 男性 总和
自我知觉
总和
过轻
过重
419
1995
2414
(786.78)(1627.22)
959
855
1814
(591.22)(1222.78)
1378
1995 1938.67
56.33 3173.41
1.37
5816 5816
0
2297.1 3
df=3-1=2 查表,0.05水平上临界值为5.99,故……
df=3-1=2 查表, 0.01水平上临界值为9.21
-
15
三、卡方独立性检验
(一)适用材料 主要用于两个或两个以上因素多项分类的计数资料
分析。如果要研究的两个自变量之间是否具有独 立性或有无关联或有无“交互作用”的存在,就 要应用卡方独立性检验。 如果两个子变量是独立的,无关联的,就意味着对 其中一个自变量来说,另一个自变量的多项分类 次数上的变化是在取样误差的范围之内。假如两 个因素是非独立,则称两变量有交互作用。
第十二章 非参数检验
-
1
一、参数与非参数检验
参数检验 用于等比/等距型数据 参数检验的前提:正态分布和方差同质
非参数检验 不用对参数进行假设 对分布较少有要求,也叫distributionfree tests 用于名义/顺序型数据
-
2
参数统计和非参数统计优缺点
• 参数统计 优点:
对资料的分析利用充分 统计分析的效率高
于等与临界值才显著),使用9或3均可 • 接受虚无假设
医学统计学课件卡方检验
队列研究中的卡方检验
总结词
在队列研究中,卡方检验用于比较不同暴露 水平或不同分组在某个分类变量上的分布差 异,以评估暴露因素与疾病发生之间的关系 。
详细描述
队列研究是一种前瞻性研究方法,按照暴露 因素的不同将参与者分为不同的组,追踪各 组的疾病发生情况。通过卡方检验,可以比 较不同暴露水平或不同分组在分类变量上的 分布差异,如分析不同饮食习惯的人群中患
卡方检验与相关性分析的区别
卡方检验主要用于比较实际观测频数与期望频数之间的差异,而相关性分析则用于研究 两个或多个变量之间的关联程度。
卡方检验与相关性分析的联系
在某些情况下,卡方检验的结果可以为相关性分析提供参考,帮助了解变量之间的关联 程度。
05
卡方检验的应用实例
病例对照研究中的卡方检验
总结词
02
公式
卡方检验的公式为 $chi^{2} = sum frac{(O_{ij} - E_{ij})^{2}}{E_{ij}}$,
其中 $O_{ij}$ 表示实际观测频数,$E_{ij}$ 表示期望频数。
03
适用范围
卡方检验适用于两个分类变量的比较,可以用于分析病例对照研究、队
列研究等类型的研究。
卡方检验的用途
如比较不同年龄组、性别组等人群中某种疾病的患病率。
卡方检验的基本假设
每个单元格中的期望 频数应该大于5。
卡方检验对于样本量 较小的情况可能不适 用。
观察频数与期望频数 应该服从相同的概率 分布。
02
卡方检验的步骤
收集数据
01
02
03
确定研究目的
在开始卡方检验之前,需 要明确研究的目的和假设 ,以便有针对性地收集数 据。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十章χ2检验χ检验的原理第一节2χ检验的假设一、2(一)分类相互排斥,互不包容2χ检验中的分类必须相互排斥,这样每一个观测值就会被划分到一个类别或另一个类别之中。
此外,分类必须互不包容,这样,就不会出现某一观测值同时划分到更多的类别当中去的情况。
(二)观测值相互独立各个被试的观测值之间彼此独立,这是最基本的一个假定。
如一个被试对某一品牌的选择对另一个被试的选择没有影响。
当同一被试被划分到一个以上的类别中时,常常会违反这个假定。
当讨论列联表时,独立性假定是指变量之间的相互独立。
这种情况下,这种变量的独立性正在被检测。
而观测值的独立性则是预先的一个假定。
(三)期望次数的大小每一个单元格中的期望次数应该至少在5以上。
一些更加谨慎的统计学家提出了更严格χ检验时,每一个单元格的期望次数至少不应低于的标准,当自由度等于1时,在进行210,这样才能保证检验的准确性。
另外,在许多分类研究中会存在这样一种情况,如自由度很大,有几个类别的理论次数虽然很小,但在给以接受的标准范围内,只有一个类别的理论次数低于1。
此时,一个简单的处理原则是设法使每一个类别的理论次数都不要低于1,分类中不超过20%的类别的理论次数可以小于5。
在理论次数较小的特殊的四格表中,应运用一个精确的多项检验来避免使χ检验。
用近似的2χ检验的类别二、2(一)配合度检验配合度检验主要用来检验一个因素多项分类的实际观察数与某理论次数是否接近,这种2χ检验方法有时也称为无差假说检验。
当对连续数据的正态性进行检验时,这种检验又可称为正态吻合性检验。
(二)独立性检验独立性检验是用来检验两个或两个以上因素各种分类之间是否有关联或是否具有独立χ检验适用于探讨两个变量之间是否具有关联(非独立)或无关(独性的问题。
这种类型的2立),如果再加入另一个变量的影响,即探讨三个变量之间关系时,就必须使用多维列联表分析方法。
(三)同质性检验同质性检验的主要目的在于检定不同人群母总体在某一个变量的反应是否具有显著差异。
当用同质性检验检测双样本在单一变量的分布情形,如果两样本没有差异,就可以说两个母总体是同质的,反之,则说这两个母总体是异质的。
三、2χ检验的基本公式2χ是表示实测次数与理论次数(即期望次数)之间差异程度的指标,其基本数学定义是实测次数与期望次数之差的平方与期望次数的比率。
2χ检验就是检验实测次数与期望次数是否一致的统计方法。
基本公式如下:2)(∑-=ee f f f χ 其中 0f 表示实际观察次数,e f 表示某理论次数。
要求:≥e f 5四、小期望次数的连续性校正第一,单元格合并法。
若有一格或多个单元格的期望次数小于5时,在配合研究目的情况下,可适当调整变量的分类方式,将部分单元格予以合并。
第二,增加样本数。
如果研究者无法改变变量的分类方式,又想获得有效样本,最佳的方法是直接增加样本数来提高期望次数。
第三,去除样本法。
如果样本无法增加,次数偏低的类别又不具有分析与研究价值时,可以将该类被试除去,但研究的结论不能推论到这些被除去的母总体中。
第四,使用校正公式。
在2×2的列联表检验中,若单元格的期望次数低于10但高于5,可使用耶茨校正(Yates ’ correction for continuity)公式来加以校正。
若期望次数低于5时,或样本总人数低于20时,则应使用费舍精确概率检验法(Fisher ’s exact probability test)。
当单元格内容牵涉到重复测量设计时(例如前后测设计),则可使用麦内玛检验(McNemar test)。
第二节 配合度检验配合度检验(goodness of fit test )主要用于检验单一变量的实际观察次数分布与某理论次数是否有差别。
由于它检验的内容仅涉及一个因素多项分类的计数资料,故可以说是一种单因素检验(One-way test)。
一、配合度检验的一般问题1.建立假设0H :e f f =0 a H :e f f =0在2χ检验中,理论(或期望)次数的确定就取决于这种比例的假设。
2χ的临界值是在0H 成立的条件下导出理论分布,并由2χ公式计算出来的。
若实际计算出的2χ值大于理论上的临界值()205.0df χ,即2χ>()205.0df χ则说在05.0=α的显著水平上拒绝0H 。
2.自由度的确定原则自由度确定的一般原则是:以相互独立的类别数k (或C )减去所受的限制数M ,即M k df -=在各种适合性检验中,如果理论次数只受到总和的限制,即受∑∑=e f f的限制,则自由度为1-=k df在正态分布的适合性检验,因其除了受∑∑=e f f的限制以外,还受理论分布的均数和标准差两个未知参数的限制,即受到三个条件的限制,其自由度为3-=k df3.理论次数的计算规则一是数据分布有其理论概率为依据,这时的理论次数()e f 等于总次数乘以某种属性出现的概率(p ),即Np f e =理论次数的计算,一般是根据某种理论,按一定的概率通过样本即实际观察次数计算。
某种理论有经验概率,也有理论概率,如二项分布、正态分布等理论概率。
二、配合度检验的应用 (一)检验无差假说这里讲的无差假说,是指各项分类的实计数之间没有差异,也就是假设,各项分类之间的几会相等,或概率相等,因此理论次数完全按概率相等的条件计算。
即:理论次数=总数×例10-1:随机抽取60名学生,询问他们在高中是否需要文理分科,赞成分科的39人,反对分科的21人,问他们对分科的意见是否有显著差异?解:1)建立假设(赞成与反对的人数相等)分类项数1f f H e =00:(赞成与反对的人数不相等)2)计算统计量302160=⨯=e f 30)3021(30)3039()(2222-+-=-=∑fff eeχ 4.530)9(922=-+=3)进行统计决策 查2χ表,当1=df 时,,,63.684.3201.0205.0==χχ因为4.52=χ,201.02205.0χχχ<<,所以,05.001.0<<p 。
达到显著性水平,拒绝原假设。
说明两种态度有显著差异。
例10-2:某项民意测验,答案有同意、不置可否、不同意三种。
调查了48人,结果同意的24人,不置可否的12人,不同意的12人。
问持这三种意见的人数是否有显著不同?解:此题为检验无差假说,已知分类的项数为三,故各项分类假设实计数相等。
所以1)建立假设ffH e=:ffH e≠1:2)计算统计量616)1612(16)1612(16)1624(2222=-+-+-=χ 3)进行统计决策 查2χ表,当213=-=df 时,99.5205.0=χ,因为205.026χχ〉=,所以05.0<p 。
达到显著性水平,拒绝原假设。
说明三种态度有显著差异。
(二)检验假设分布的概率假设某因素各项分类的次数分布为正态,检验实计数与理论上期望的结果之间是否有差异。
因为已假定所观察的资料是按正态分布的,故其理论次数的计算应按正态分布概率,分f f H e ≠01:163148,48,31=⨯===feN p别计算各项分类的理论次数。
具体方法是先按正态分布理论计算各项分类应有的概率再乘以总数,便得到各项分类的理论次数。
如果不是事先假定所观察的资料为正态分布而是其他分布,如二项分布、泊松分布等,其概率应按各所假定的分布计算。
事先假定的分布不是理论分布而是经验分布,亦可按此经验分布计算概率,在乘以总数便可得到理论次数,从而进一步检验假设分布与实计数的分布之间,亦即实计数与理论次数之间差异是否显著。
例10-3:某班有学生50人,体检结果按一定标准划分为甲乙丙三类,其中甲类16人,乙类24人,丙类10人,问该班学生的身体状况是否符合正态分布?解:该题中的理论次数应按假设的正态分布概率计算。
按正态分布,就可以认为σ3± 包括了全体,各等级所占的横坐标应该相同(σσ236=÷),故各类人数应占的比率为:甲级:σσ1~3之间,曲线下的面积应为1587.03413.050.0=- 乙级:σσ1~1-之间,曲线下的面积应为6826.023413.0=⨯ 丙级:σσ3~1--之间,曲线下的面积应为1587.03413.050.0=- 各等级的理论次数为:8501587.0≈⨯=甲e f1)建立假设H 0:学生的身体状况符合正态分布 H 1:学生的身体状况不符合正态分布 2)计算统计量44.11881034342488162222=-+-+-=)()()(χ3)进行统计决策 当213=-=df 时,6.10205.0=χ,χχ205.02>,所以达到显著性水平,拒绝原假设。
说明学生身体状况不符合正态分布。
例10-4:根据以往的经验,某校长认为高中生升学的男女比例为2 :1,今年的升学情况是男生85人,女生35人,问今年升学的男女比例是否符合该校长的经验?解:此题是假设男女生升学的人数分布与校长的经验分布相同,故理论次数应按经验分布的概率计算34506826.0=⨯=fe 乙8501587.0≈⨯=fe 丙理论次数为:8032)3585(=⨯+=fe 男40313585=⨯+=)(女fe1) 建立假设H 0:男女升学比例符合校长经验 H 1:男女升学比例不符合校长经验 2)计算统计量94.04040-358080-85222=+=)()(χ3)进行统计决策 当12-=df 时,84.3205.0=χ,因为χχ205.02<,故差异不显著。
接受原假设。
说明男女升学比例符合校长经验。
三、连续变量分布的吻合性检验(自学)对于连续性数据总体分布的检验,一种方法是将测量数据整理成次数分布表,画出次数分布曲线图,根据次数分布曲线,判断选择恰当的理论分布。
有时可选择某一直线或曲线的理论分布函数方程式计算理论次数,然后把实际分组次数(0f )和理论次数(e f )代入检验的基本公式,计算2χ 值查2χ表,确定其差异是否显著。
若差异显著,说明实际次数分布于所选择的理论次数分布不吻合,这时可另选择理论分布函数,再次比较,直至吻合,这个理论分布函数就是该实际测量的次数分布函数。
若差异不显著则说明所选的理论次数分布于实际次数分布吻合。
对连续随机变量分布的吻合性检验,关键的步骤是计算理论次数与确定自由度。
理论次数的计算是把实际次数分布的统计量代入所选的理论分布函数方程,计算各分组区间的理论频率,然后乘以总数得到各分组区间的理论次数。
确定自由度时是将分组的数目减去计算理论次数是所用统计量的数目。
下面以正态分布吻合性检验为例,说明理论次数的计算与自由度的确定。
例10-5:表10-1所列资料是552名中学生的身高次数分布,问这些学生的身高分布是否符合正态分布。