第五章第一次课卡方检验第一节检验原理第二及节适合性检验

合集下载

重庆大学生物统计学_第五章卡方检验

卡方 (χ2) 分布的函数
( ) CHIDIST：自由度为n的卡方分布在x点处的单尾概率 P χ2 > x
CHIINV：返回自由度为n的卡方分布的单尾概率函数的逆函数• CHIDIST •
X•
需要计算分布的数字（X非负值） •
Degrees_freedom • 自由度 •
CHIINV • Probability • 卡方分布的单尾概率 • Degrees_freedom • 自由度 •
没有关联 • 2. 规定显著性水平 • 3. 根据无效假设计算出理论数 • 4. 根据规定的显著水平和自由度计算出卡方值，
再和计算的卡方值进行比较。 • 如果接受假设，则说明因子之间无相关联，
是相互独立的 • 如果拒绝假设，则说明因子之间的关联是显
著的，不独立 •
一、2X2列联表的独立性检验 •
设A、B是一个随机试验中的两个事件，其中A可能出现r1、r2个结果，B可能出现c1、c2个结果，两因子相互作用形成4个数，分别以O11、O12、O21、 O22表示，即 • 2X2列联表的一般形式 •
故应否定H0，接受HA，认为鲤鱼体色F2性状比不符合3:1比率
（4）推断：由CHIINV(0.025, 1)=6.63, 即 χ c 2 > χ0 2.05(1),即P<0.05
故应否定H0，接受HA，认为鲤鱼体色F2性状比不符合3:1比率
独立性检验 •
步骤： • 1. 提出无效假设，即认为所观测的各属性之间
故应否定H0，接受HA，认为吸烟与患气管病极显著相关
（4）推断：由CHIINV(0.025, 1)=6.63, 即故应否定H0，接受HA，认为吸烟与患气管炎病密切相关
二、rXc列联表的独立性检验 •

生物统计学—卡方检验

独立性检验
步骤： 1. 提出无效假设，即认为所观测的各属性之间
没有关联 2. 规定显著性水平 3. 根据无效假设计算出理论数 4. 根据规定的显著水平和自由度计算出卡方值，
再和计算的卡方值进行比较。如果接受假设，则说明因子之间无相关联，
是相互独立的如果拒绝假设，则说明因子之间的关联是显
著的，不独立
一、2X2列联表的独立性检验
设A、B是一个随机试验中的两个事件，其中A可能
出现r1、r2个结果，B可能出现c1、c2个结果，两因子相互作用形成4个数，分别以O11、O12、O21、 O22表示，即
2X2列联表的一般形式
r1 r2 总和
c1 O11 O21 C1＝O11＋O21
c2 O12 O22 C2＝O12＋O22
解：（1）假设 H0 : 鲤鱼体色F2性状分离符合3:1 对 H A : 鲤鱼体色F2性状分离不符合3:1
（2）选取显著水平 0.05
（3）检验计算：计算鲤鱼体色的理论值
体色 F2理论尾数
青灰色 1201.5
红色 400.5
总数 1602
k
cc2 i 1
Oi Ei
0.5 2 301.63
1
2
2
xx
将样本方差代入，则：c
2
(k
1) s 2
2
其c2服从自由度为(k-1)的卡方分布
卡方函数的使用
假设
H 0:
2
2 0
,
适用右尾检验，其否定区为： c 2 c2
假设
H
0:
2
2 0
,
适用左尾检验
，其否定区为：
c
2
c2 1
假设

生物统计学第四版--教学大纲

课程简介《生物统计学》是运用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的一门学科，是生物学各专业的专业基础课。

本门课程在第七学期进行，是在学生已学习了《高等数学》课程和《植物学》、《动物学》、《生理学》、《遗传学》等生物学各学科的基础知识的基础上开设本门课程。

本课程系统地介绍了生物统计学的基本原理和方法,在简要叙述了生物统计学的概念、产生、发展和作用、生物学研究中试验资料的整理、特征数的计算、概率和概率分布、抽样分布基础上，着重介绍了平均数和频率的假设检验、X 2检验、方差分析、直线回归与相关分析、可直线化的非线性回归分析、协方差分析、试验设计的原理和常用试验设计及其统计分析、多元回归与相关分析和多项式回归分析，同时简要介绍聚类分析、判别分析、主成分分析、因子分析、典型相关、时间序列分析等多元分析。

本课程的主要目的是培养学生具有生物学试验设计的能力和对试验资料进行统计分析处理的能力.一、教学环节和教学方法1教学环节本门课程为生物学的专业基础课，在第七学期进行。

学生已学习了《高等数学》课程和《植物学》、《动物学》、《生理学》、《遗传学》等生物学各学科的基础知识，在此基础上开设本门课程。

主要教学形式为课堂讲授，主要教学环节包括课堂讲授、辅导答疑、课外作业、习题讲解等。

2教学方法以课堂讲授为主,研制电子教案和多媒体幻灯片以及C A I课件,在教学方法和手段上采用现代教育技术.二、本课程的性质和任务《生物统计学》是运用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的一门学科，是生物学各专业的专业基础课.随着生物学的不断发展，对生物体的研究和观察已不再局限于定性的描述，而是需要从大量调查和测定数据中，应用统计学方法，分析和解释其数量上的变化，以正确制定试验计划,科学地对试验结果进行分析，从而作出符合科学实际的推断。

《生物统计学》不仅提供如何正确地设计科学试验和收集数据的方法，而且也提供如何正确地整理、分析数据,得出客观、科学的结论的方法。

5 卡方检验分析

2
二、主要应用对象：检验试验数据的次数分布是否和某种理论分布（如二项分布、正态分布等等）相符；在遗传学上常用检验来测定所得结果是否符合孟德尔规律、自由组合规律等。三、实例：有一鲤鱼遗传试验，以荷包红鲤（红色）与湘江野鲤（青灰色）杂交，其 F2 代获得如表 5.2 所列的体色分离尾数，问这一资料的实际观察数是否符合孟德尔的青∶红 =3 ∶ 1 一对等位基因的遗传规律？ P73。表 5.1 鲤鱼遗传试验 F2 观测结果体色青灰色红色总数 F2 观测尾数 1503 99 1602 这是典型的两组数据的适合性检验问题。
2 2）在自由度 df=1 时，须进行连续性矫正，其矫正的 c 为：

2 c 1
k
( O E 0.5) 2 E
当 df≥2 时，一般不作连续性矫正。
第二节适合性检验
一、概念：检验实际观测值与理论数是否符合的假设检验，叫适合性检验。也叫吻合度检验二、主要应用对象：检验试验数据的次数分布是否和某种理论分布（如二项分布、正态分布等等）相符；在遗传学上常用检验来测定所得结果是否符合孟德尔规律、自由组合规律等。三、实例：有一鲤鱼遗传试验，以荷包红鲤（红色）与湘江野鲤（青灰色）杂交，其 F2 代获得如表 5.2 所列的体色分离尾数，问这一资料的实际
B 18 18.6
C 12 14.4
测验步骤：．提出假设：Ｈ０：消费者对不同产品的态度没有改变ＨＡ：消费者对不同产品的态度有所改变．２．确定显著水平．（＝0.05）
３．检验计算：
(30 27) 2 (18 18.6) 2 (12 14.4) 2 0.871 27 18.6 14.4
2
４．统计推断：0.052=5.99,由于２0.052，所以接受Ｈ0 而否定ＨA．即消费者对３种不同产品的满意程度没有改变．

生物统计学第五章卡方检验

独立性检验料之间是相互独立的或者是相互联系的假设检
验，通过假设所观测的各属性之间没有关联，然后证明这种无关联的假设是否成立。
同质性检验在连续型资料的假设检验中，对一个样本方差
的同质性检验，也需进行χ2 检验。
第五章第一节 χ2检验的原理与方法第二节适合性检验第三节独立性检验
➢ χ2检验就是统计样本的实际观测值与理论推算
离散型资料总体分布未知
检验对象
总体参数或几个总体参数之差
不是对总体参数而是对总体分布的假设检验
χ2 检验的相关知识
三、χ2检验的用途指对样本的理论数先通过一定的理论分布推算
适合性检验出来，然后用实际观测值与理论数相比较，从
而得出实际观测值与理论数之间是否吻合。因此又叫吻合度检验。是指研究两个或两个以上的计数资料或属性资
（4）推断
确定自由度，df=(r-1)(c-1)，查临界值表，进行推断。
给药方式口服注射总数
给药方式与给药效果的2×2列联表
有效 58 64 122(C1)
无效 40 31 71(C2)
总数
98(R1) 95(R2) 193(T)
有效率 59.2％ 67.4％
1.H0 ：给药方式与给药效果相互独立。 HA ：给药方式与给药效果有关联。
进行计算：
2 1
n
Oi2 n pi
Oi －第 i 组的实际观测数 pi －第 i 组的理论比率 n－总次数
豌豆
F2代，共556粒
315
101 108
32
此结果是否符合自由组合规律
根据自由组合规律，理论分离比为：
黄圆：黄皱：绿圆：绿皱＝ 9 ：3 ：3 ：1 16 16 16 16

第五章卡方检验

χ2＝ ∑
（Oi－Ei）2 Ei
χ2值就等于各组观测值和理论值差的平方与理论值之比，再求其和。
(Oi − Ei ) χ =∑ Ei i =1
2 k
2
已经证明当k充分大时，由上式定义的统计量近似服从��ቤተ መጻሕፍቲ ባይዱ��2分布
χ2 检验的原理是：应用理论推算值(E)与实际观测值 (O)之间的偏离程度来决定其χ2值的大小。在计算理论推算值(E)与实际观测值(O)之间的符合程度时,一般采用 ∑(E-O)2。对于k组资料采用:
∑ (O − E )
i i
2
值越大，观测值与理论值相差也就
越大，反之越小。
奖学金
200元
一等 10元
5％
７0元
三等 10元实际得到60元
14％
实际得到190元
等级观测值（O）理论（E） O-E 一等三等 190 60 200 70 -10 -10
（O－E）2 100 100
两组差数虽然相同，但其差数占理论值的比重不同。
χ2＜ χ20.05
P＞0.05
接受H0 ，即豌豆F2分离符合9：3：3：1的自由组合规律。
方法二
315 101 108 32
黄圆：黄皱：绿圆：绿皱＝
2 i
9 3 3 1 ：：： 16 16 16 16
2 2 2 2 1 O 1 315 101 108 32 + + χ2 = ∑ −n = × + − 556 = 0.470 3 1 3 n pi 556 9 16 16 16 16
χ2 ＝0.016+0.101+0.135+0.218＝0.470

5. 卡方检验

v−v 理论数编码 u= Φ(u) 组界 v−v sv = Ti u Φ(u) = ∆Φ(u) n 变量组界 sv (Vt) 15.7 0 0.5 -2.153 0.0157 0.5 -2.153 0.0157 41.1 1 1.5 -1.582 0.0568 1.5 -1.582 0.0568 99.4 2 2.5 -1.011 0.1562 2.5 -1.011 0.1562 173.8 3 3.5 -0.440 0.3300 3.5 -0.440 0.3300 222.1 4 4.5 4.5 0.131 0.131 0.5521 0.5521 206.6 5 5.5 5.5 0.702 0.702 0.7587 0.7587 140.0 6 6.5 6.5 1.274 1.274 0.8987 0.8987 68.8 7 7.5 7.5 1.845 1.845 0.9675 0.9675 24.7 8 8.5 8.5 2.416 2.416 0.9922 0.9922 7.8 9 1000
2

i 1
k
( O i E i 0 .5 ) Ei
2
§2. 适合度检验
1) O = E 2) 选取显著水平为0.05或0.01； 3) 检验计算： 4) 推断：根据df=k-1，
例：
体色
鲤鱼遗传试验F2观测结果
F2观测尾数
青灰色 1503
红色 99
总数 1602
显性
隐性
检验步骤： 1) 零假设：F2代符合3：1规律；备择假设：不符合 2) 选取显著水平为00.01； 3) 检验计算：由于只有二组数据，自由率为1，需要矫正。
第一步：分组第二步：引入编码变量Vt，计算出其平均值 v 和标准差 sV 第三步：确定编码变量的组界

5第五章拟合优度检验

表5-3
体色 F2观测尾数
鲤鱼遗传试验F2观测结果
青灰色 1503 红色 99 总数 1602
⒈ 提出无效假设与备择假设
H 0 : 鲤鱼体色F2 代分离符合3： 1 比率 H A : 鲤鱼体色F2 代分离不符合3： 1 比率
⒉计算理论次数青灰色的理论数为： E1=1602 ×3/4=1201.5 红色的理论数： E2=1602×1/4=400.5 2 3.计算 c 因为该资料只有k=2组，所以此例的自由度为2-1=1 ( O，需进行连续性矫正。 E 0.5) 2
9 9 p(0) , 9 3 3 1 16 3 p(1) p(2) , 16 1 p(3) 16
9 T0 179 100.6875 , 16 3 T1 T2 179 33.5625 16
1 T3 179 11.1875 16
按公式
行总数列总数 Ei 总数
计算各格理论值，填于各格括号中。再计算统计量：

2
( 254 236.5 0.5)
2
236.5 2 ( 246 263.5 0.5)

( 219 236.5 0.5)
2
236.5 2 ( 281 263.5 0.5)
263.5 263.5 1.222 1.222 1.097 1.097 4.638
尾区概率 P=P1+P0=0.122+0.010=0.132。由于不知什么性别对药物反应强烈；∴应进行双侧检验，即与 =0.025 比较。 2 ， ∴接受H0，男女对该药反应无显著不同。
2 P

0.025
作业26/11
p102

卡方检验

• （2）分析过程说明 • ①表6-1的资料是经过人为汇总得到的，即是采用频数表格式来记录的的资料，同组分别有两种互不相容的结果— —杀灭或未杀灭，两组各自的结果互不影响，即相互独立。对于这种频数表格资料，在卡方检验之前须用Weight Cases命令对频数变量进行预先统计处理，操作如下：单击Data-Weight Cases命令，则弹出如图6-3所示对话框，选中Weight cases by，按三角按钮将变量“计数”置入 Frequency Variable框内，定义“计数”为权数，按OK 。 • ②单击主菜单Analyze-Descriptive Statistics-Crosstabs，则弹出对话框，按三角按钮将行变量“治疗方法” 置入 Row框内，将列变量“治疗效果” 置入Column框内，如图6-4。 • ③按Stastics按钮，弹出“选择统计方法”对话框（见图 6-5），选中Chi-square，按Continue，返回图6-4，点OK，输出表6-2、表 6-3。
x 2 1.428, p 0.839 0.05
，差异不显著，可以认为不同的治疗方法与治疗效果无关，即三种治疗方法对治疗效果的影响差异不显著。
下表为不同灌溉方式下水稻叶片衰老情况的资料,试测验稻叶衰老的情况是否与灌溉方式有关?
灌溉方式深水浅水湿润总计绿叶数 146 183 152 481 黄叶数 7 9 14 30 枯叶数 7 13 16 36
第五章卡方检验
一、2X2列联表的独立性检验（一）计算公式
（二）例题及统计分析
例6.1 分别用灭螨A和灭螨B杀灭害虫，结果如表6-1，问两种灭螨剂的效果差异是否显著？表6-1 灭螨A和B杀灭害虫试验结果
组别灭螨A 灭螨B 未杀灭数C1 12 22 TC1=34 杀灭数C2 32 14 TC2=46 TR1=44 TR2=36 T=80

生物统计学第五章卡方检验

500
512
515
542
522
514
488
497
475
487
497
493 498 502 494 499 490
500
491 494 496 518 484 496
518
506 482 494 503 517 491
508
487 482 494 503 517 491
530
486 512 488 503 506 490
三、独立性检验

原理：通过观测数与理论数之间的一致性判断事件之间的独立性，即判断两个事件是否是独立事件或处理间差异是否显著。

方法：将数据列成列联表，也称列联表卡方检验。
一、2×2列联表卡方检验

（一）原理：例5 青霉素可以注射，也可以口服，每天给感冒患者口服或注射 80 万单位的青霉素，调查两种给药方式的药效，结果如下表所示，试分析青霉素的两种给药方式的药用效果是否有差异？
0.302 0.061 0.155 0.121 0.09 1.539
10
总计
0
100
0
590
0.0051
1
题解

1、提出假设 H0：O-E=0；HA： O-E≠0 2、总体参数未知，需要由样本比例估计P=590/1000=0.59 3、计算理论值和卡方值，理论频率Pi按照二项分布公式计算——n=10，0≤k ≤10，理论数Ei=NPi
10 ——
167.5～170.5 ——
1 100
0.01 1.00
0.009 1.00
0.9 100
（5）Oi与Ei进行比较，判断两者之间的不符合度，检验程序如下：①零假设：H0：O-E=0；HA： O-E≠0 ②检验统计量：

卡方检验专题知识讲座

这阐明aabb不符合理论百分比
p 0.05
2 检验中旳适合性检验一般要求样本量应大某些，样本较小会影响到检验旳正确性，尤其是当理论百分比中有较小值时（上一例中旳aabb），更应该注意样本容量，这一例即有样本偏小旳倾向
第二节独立性检验
独立性检验是检验两个变量、两个事件是否相互独立旳这么一种检验
不消毒 580（438.19） 630（771.81） 1210
合计 880
1550
2430
表中，括弧内旳就是理论值
需要注意旳是，这种构造旳 2检验其自由度是横行
数减1乘以纵列数减1：2 12 1 1
所以这里应该使用校正公式计算 c2 值
2 c
| O E | 0.52
E
同学们先自行计算
设置无效假设
现需验证这次试验旳成果是否符合这一分离百分比
1477+493+446+143=2559
2559
9 16
1439.44
2559
3 16
479.81
2559
1 16
159.94
2
1477 1439.44 2
143 159.942
...
5.519
1439.44
159.94
以上三个例子都要求我们判断观察值与理论值之间是否相符，而我们都能够得到一种 2值
438.19
771.81
142.30
2 0.01,1
6.635
p 0.01
否定无效假设，即鱼池消毒是否极明显地影响着鱼
苗旳发病（或鱼苗旳发病情况直接受鱼池消毒是
否旳影响）
二、R×C表（R：行 C：列） R×C表是2×2表旳扩展，反之， 2×2表也能够看

卡方检验

36
总计 160 205 182 547
H0：稻叶衰老情况与灌溉方式无关；HA：稻叶衰老情况与灌溉方式有关。
取 =0.05。根据H0的假定，计算各组格观察次数的相应理论次数：如与146相应的E=(481×160)/547=140.69，
与183相应的E=(481×205)/547=180.26，……，所得结果填于表7.11括号内。
因本例共有k=4组，故df=k-1=3。查附表4，
,现实得
,所以否定
H0，接受HA，即该水稻稃尖和糯性性状在F2的实际结果不符合9∶3∶3∶1的理论比率。
这一情况表明，该两对等位基因并非独立遗传，而可能为连锁遗传。
实际资料多于两组的值通式则为：
(5·15)
上式的mi为各项理论比率，ai为其对应的观察次数。如本例，亦可由(5·15)算得
如种子灭菌项的发病穗数O11=26，其理论次数 E11=(210×76)/460=34.7，即该组格的横行总和乘以纵行总和再除以观察总次数(下同)；同样可算得
O12=50 的 E12=(250×76)/460=41.3； O21=184的E21=(210×384)/460=175.3； O22=200的E22=(250×384)/460=208.7。以上各个E值填于表5.7括号内。
（1）设立无效假设，即假设观察次数与理论次数的差异由抽样误差所引起，即H0：花粉粒碘反应比例为1∶1 与HA：花粉粒碘反应比例不成1∶1。
（2）确定显著水平 =0.05。
(3）计算值
查附表4，当
时
=3.84 ，实得
=0.2926小于
，所以接受H0。即认为观察次数和理
论次数相符，接受该玉米F1代花粉粒碘反应比率为1∶1的

第5讲卡方检验

4 60 52 6 1 123
3. 2 48. 8 42. 3 4. 9 0. 8 100. 0
11. 1 6. 1 5. 2 2. 3 2. 3 5. 3
表中阳性率(%)一列，分母是各年龄段受检孕妇数，分子是其中携带HBsAg人数。该率描述的是各年龄段内受检孕妇中携带HBsAg的发生强度。
年龄(岁) 受检人数 HBsAg阳性人数阳性构成比(%) 阳性率(%)
A_B_的理论次数T1：250×9/16=140.625； A_bb的理论次数T2：250×3/16=46.875； aaB_的理论次数T3：250×3/16=46.875； aabb的理论次数T4：250×1/16=15.625。
（四）计算2
2 ( A T ) 2 =8.972 T
2 计算 c。
（三）计算理论次数根据理论比率3∶1求理论次数：青灰色理论次数：T1=1602×3/4=1201.5 黑色理论次数：T2=1602×1/4=400.5
2 （四）计算 c
2 2 2 (| A T | 0.5) (|1503 1201.5| 0.5) (| 99 400.5| 0.5) 2 C 301.63 T 1201.5 400.5
上例中阳性构成比(%)一列，分母是所有携带HBsAg的孕妇的总人数(不分年龄段)，分子是其中各年龄段中携带HBsAg的孕妇人数。该一列构成比联合描述了携带 HBsAg 的孕妇，在各个年龄段中的比例构成（分布）情况。注意：1）率和构成比意义不同，不能相互错用。 2）用样本率和样本构成比对总体率和总体构成比进行点估计时，分母应足够大(例如大于100)，否则应当用实际观察的分母数 n 和分子数 m 表示为 m / n 。 3）一组相关事物的构成比之和恒为100%，但一组率不具有这样的性质。

卡方检验-适合性检验

卡方检验-适合性检验本科学生实验报告学号姓名学院生命科学学院专业、班级生物科学15C班实验课程名称生物统计学<实验>指导教师及职称孟丽华开课时间2016 至2017 学年下学期填报时间2017 年 5 月26 日云南师范大学教务处编印的检验，而是对总体分布的假设检验。

适合性检验（吻合度检验）：是指对样本的理论数先通过一定的理论分布推算出来，然后用实际观测值与理论数相比较，从而得出实际观测值与理论数之间是否吻合。

因此又叫吻合度检验。

实验流程：（1）听老师讲解理论知识；（2）结合书上习题5.4进行练习，加强对知识的掌握：设置变量输入各组数据进行加权进行适合性检验4、实验方法步骤及注意事项：实验方法步骤：1、打开SPSS页面。

2、设置变量，将变量名分别设置为“类型”和“数量”，将Decimals改为0，在“类型”变量中，点击Values进行赋值，将“钩芒”赋值为1，“长芒”赋值为2，“短芒”赋值为3，设置好变量后，输入各组数据。

3、点击Date——Weight Cases…进行加权，在跳出的Weight Cases框中点二、输入各组数据三、进行加权四、进行适合性检验2、对实验现象、数据及观察结果的分析与讨论：（1）假设H0：大麦F2代芒性状表型的比率符合9：3：4的理论比率；H A：其比率不符合9：3：4的理论比率。

（2）选取显著水平为α=0.05。

（3）计算统计数χ2：采用χ2值计算简式可得χ2=1/n∑O i2/Pi－n=1/(348+115+157)×[3482/(9/16)+1152/(3/16)+1572/(4/16)]－(348+115+157)=0.041或利用SPSS软件进行计算。

（4）查χ2值表，df=2时，χ20.05=5.99，χ2<χ20.05,所以，接受H0，认为大麦F2代芒性状表型比率符合9：3：4的理论比例。

或由SPSS的计算结果可知：Asymp.sig.=0.980，因为0.980>0.05，所以接受H0，认为大麦F2代芒性状表型比率符合9：3：4的理论比例。

5-卡方检验

检验一致。
基本公式：
2 R C Aij 2 专用公式： n 1 i 1 j 1 n m i j
34
（二）多个独立样本频率的比较
例3 用三种不同治疗方法治疗慢性支气管炎的疗效如下表所示，试比较三种治疗方法治疗慢性支气管炎的疗效有无差异？
组别 A药 B药有效 35 20 无效 5 10 合计 40 30 有效率（%） 87.5 66.67
22
四格表校正公式：当（n 40，1T＜5）需校正

2
( ad bc n 2) n
2
(a b)(c d )(a c)(b d )
( A T 0.5) 2 T
2
23
例2 将病情相似的淋巴系肿瘤患者随机分成两组，分别做单纯化疗与复合化疗，两组疗法的缓解率见
42 42
108
28 28
42
问：中药和西药治疗胃溃疡的有效率有无差别？
7
χ
2
检验统计量计算公式

2
A T
T
2
R 1C 1
A：实际频数（actual frequency）
T：理论频数（theoretical frequency）
理论频数是指用理论阳性率推算各实际频数的估
注意：当T＜1或n＜40时，校正公式也不恰当，这
时必须用四格表的确切概率计算法。
27
在R软件下完成卡方检验
> a<-matrix(c(2,14,10,14), nc=2)
>a
[,1] [,2] [1,] [2,] 2 14 10 14
> chisq.test(a)

次数资料分析卡方检验

第五章次数资料分析——2χ检验本章将分别介绍对次数资料、等级资料进行统计分析的方法。

第节χ2统计量与χ2分布第一节一、χ2统计量的意义为了便于理解现结合实例说明(为了便于理解，现结合一实例说明χ2读作卡方) 统计量的意义。

根据遗传学理论，动物的性别比例是1:1。

统计某羊场一年所产的876只羔羊中有公羔只母羔只按11只羔羊中，有公羔428只，母羔448只。

按1:1性别例计算公母均应为只的性别比例计算，公、母羔均应为438只。

以A表示实际观察次数，T 表示理论次数，可将上述情况列成表5‐1。

表5‐1 羔羊性别实际观察次数与理论次数从表5‐1看到，实际观察次数与理论次数存在一定的差异，这里公、母各相差10只。

这个差异是属于抽样误差(把对该羊场一年所生羔羊羔的性别统计当作是次抽样调查)、还是羔羊性的性别统计当作是一次抽样调查还是羔羊性别比例发生了实质性的变化?要回答这个问题，首先需要确定一个统计量用以表示实际观察次数与理论次数偏离的程度度；然后判断这一偏离程度是否属于抽样误差，即进行显著性检验。

为了度量实际观察次数与理论次数偏离的程度，最简单的办法是求出实际观察次数与理论次数的差数。

从表51看出：A1T1=10，A2T2=10，‐‐‐‐由于这两个差数之和为0，显然不能用这两个差数之和来表示实际观察次数与理论次数的偏离程度了免负抵将两个数度。

为了避免正、负抵消，可将两个差数A‐T、11A2‐T2 平方后再相加，即计算∑(A‐T)2，其值越大，实际观察次数与理论次数相差亦越大，反实际观察次数与理论次数相差亦越大之则越小。

但利用∑(A‐T)2表示实际观察次数与理论次数的偏离程度尚有不足。

例如某一组实际观察次数为505、理论次数为500，相差5；而另组实际观；而另一组实际观察次数为26、理论次数为21，相差亦为5。

显然这两组实际观察次数与理论次数的偏离程度是不同的因为前者是相对于理论次数相差是不同的。

因为前者是相对于理论次数5005，后者是相对于理论次数21相差5。

第五章卡方检验-精选文档

144～146
147～149 150～152 153～155 156～158 159～161 162～164 165～167 168～170 总计
143.5～146.5
146.5～149.5 149.5～152.5 152.5～155.5 155.5～158.5 158.5～161.5 161.5～164.5 164.5～167.5 167.5～170.5 ——
k

（3）第i组的理论频率为Pi，其计算方法如下：
i 1
1 5 6 . 1 c m s 4 . 9 8 c m ① 先计算样本平均数和标准差 x
2 ②假设高粱“三尺三”符合正态分布。根据参数估计原，
用s/c4=4.98/0.9975=4.99估计（样本标准理，用 x 估计，
4
5 6 7 8～10 总计
149.5～152.5
152.5～155.5 155.5～158.5 158.5～161.5 161.5～164.5 ——
差分布的矩系数C4、C5表）。即假设高粱的株高x服从正态
2 分布 156 . 1 , 4 . 99
③根据正态分布概率的计算关系，查附表 1，计算各组组界的理论频率
（4）计算各组的理论频数为Ei=npi,填入下表
高粱“三尺三”株高观察频数和理论频数表
组号 1 2 3 4 5 6 7 8 9 组界/cm 140.5～143.5 143.5～146.5 146.5～149.5 149.5～152.5 152.5～155.5 155.5～158.5 158.5～161.5 161.5～164.5 164.5～167.5 观察频数（Oi） 1 2 4 13 23 28 15 10 3

第五章第一次课卡方检验第一节检验原理第二及节适合性检验

第五章 x 2检验教学要求1.了解卡方分布的特点，掌握适合性检验的原理和适用范围 2. 掌握独立性检验的原理和适用范围一、χ2检验的定义χ2 检验(Chi-square test) 对样本的频数分布所来自的总体分布是否服从某种理论分布或某种假设分布所作的假设检验，即根据样本的频数分布来推断总体的分布。

χ2检验与测量数据假设检验的区别:(1)测量数据的假设检验，其数据属于连续变量，而χ2检验的数据属于点计而来的间断变量。

(2) 测量数据所来自的总体要求呈正态分布，而χ2检验的数据所来自的总体分布是未知的。

(3)测量数据的假设检验是对总体参数或几个总体参数之差所进行的假设检验，而χ2 检验在多数情况下不是对总体参数的检验，而是对总体分布的假设检验。

二、χ2检验与连续型资料假设检验的区别三、χ2检验的用途适合性检验（吻合度检验）:是指对样本的理论数先通过一定的理论分布推算出来，然后用实际观测值与理论数相比较，从而得出实际观测值与理论数之间是否吻合。

因此又叫吻合度检验。

独立性检验:是指研究两个或两个以上的计数资料或属性资料之间是相互独立的或者是相互联系的假设检验，通过假设所观测的各属性之间没有关联，然后证明这种无关联的假设是否成立。

同质性检验:在连续型资料的假设检验中，对一个样本方差的同质性检验，也需进行χ2 检验。

连续型资料假设检验χ2 检验第一节：χ2检验的原理与方法χ2检验的基本原理:χ2检验就是统计样本的实际观测值与理论推算值之间的偏离程度。

实际观测值与理论推算值之间的偏离程度就决定其χ2值的大小。

理论值与实际值之间偏差越大，χ2值就越大，越不符合；偏差越小，χ2值就越小，越趋于符合；若两值完全相等时，χ2值就为0，表明理论值完全符合。

χ2检验统计量的基本形式:（Oi－Ei）2χ2＝∑EiO－－实际观察的频数（observational frequency）E－－无效假设下的期望频数（expectation frequency）要回答这个问题，首先需要确定一个统计量，将其用来表示实际观测值与理论值偏离的程度；然后判断这一偏离程度是否属于抽样误差，即进行显著性检验。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第五章 x 2检验
教学要求1.了解卡方分布的特点，掌握适合性检验的原理和适用范围 2. 掌握独立性检验的原理和适用范围
一、χ2检验的定义
χ2 检验(Chi-square test) 对样本的频数分布所来自的总体分布是否服从某种理论分布或某种假设分布所作的假设检验，即根据样本的频数分布来推断总体的分布。

χ2检验与测量数据假设检验的区别:
(1)测量数据的假设检验，其数据属于连续变量，而χ2检验的数据属于点计而来的间断变量。

(2) 测量数据所来自的总体要求呈正态分布，而χ2检验的数据所来自的总体分布是未知的。

(3)
测量数据的假设检验是对总体参数或几个总体参数之差所进行的假设检验，而χ2 检验在多数情况下不是对总体参数的检验，而是对总体分布的假设检验。

二、χ2检验与连续型资料假设检验的区别
三、χ2检验的用途
适合性检验（吻合度检验）:是指对样本的理论数先通过一定的理论分布推算出来，然后用实际观测值与理论数相比较，从而得出实际观测值与理论数之间是否吻合。

因此又叫吻合度检验。

独立性检验:
是指研究两个或两个以上的计数资料或属性资料之间是相互独立的或者是相互联系的假设检验，通过假设所观测的各属性之间没有关联，然后证明这种无关联的假设是否成立。

同质性检验:
在连续型资料的假设检验中，对一个样本方差的同质性检验，也需进行χ2 检验。

连续型资料假设检验
χ2 检验
第一节：χ2检验的原理与方法
χ2检验的基本原理:χ2检验就是统计样本的实际观测值与理论推算值之间的偏离程度。

实际观测值与理论推算值之间的偏离程度就决定其χ2值的大小。

理论值与实际值之间偏差越大，χ2值就越大，越不符合；偏差越小，χ2值就越小，越趋于符合；若两值完全相等时，χ2值就为0，表明理论值完全符合。

χ2检验统计量的基本形式:
（Oi－Ei）2
χ2＝∑
Ei
O－－实际观察的频数（observational frequency）
E－－无效假设下的期望频数（expectation frequency）
要回答这个问题，首先需要确定一个统计量，将其用来表示实际观测值与理论值偏离的程度；然后判断这一偏离程度是否属于抽样误差，即进行显著性检验。

判断实际观测值与理论值偏离的程度，最简单的办法是求出实际观测值与理论值的差数。

由于差数之和正负相消，并不能反映实际观测值与理论值相差的大小。

为了避免正、负相抵消的问题，可将实际观测值与理论值的差数平方后再相加，也就是计算：
∑（O－E）2
O－－实际观察的频数
E－－无效假设下的期望频数
数的平方除以相应的理论值，将之化为相对数，从而来反映（O－E）2 的比重，最后将各组求和，这个总和就是χ2。

羔羊性别观测值与理论值
χ2值就等于各组观测值和理论值差的平方与理论值之比，再求其和。

χ2值的特点
可加性非负值
随O 和E 而变化
χ2值与概率P 成反比， χ2值越小，P 值越大，说明实际值与理论值之差越小，样本分布与假设的理论分布越相一致;
χ2越大，P 值越小，说明两者之差越大，样本分布与假设理论分布越不一致。

χ2检验的基本步骤
1.
提出无效假设H 0：观测值与理论值的差异由抽样误差引起，即观测值＝理论值。

同时给出相就的备择假设HA ：观测值与理论值的差值不等于0，即观测值≠理论值
2. 确定显著水平α：一般确定为0.05或0.01
3.
计算样本的χ2值
χ2
＝ ∑
（O i －E i ）2
E i
χ2
＝ ∑
（O i －E i ）2
E
4. 进行统计推断
χ2检验的注意事项
1、任何一组的理论次数Ei 都必须大于5，如果Ei ≤5，则需要合并理论组或增大样本容量以满足Ei ＞5
2、
2、在自由度＝1时，需进行连续性矫正，其矫正的χ2c 为：
χ2分布是连续型变量的分布，每个不同的自由度都有一个相应的χ2分布曲线，所以其
分布是一组曲线。

由于检验的对象－次数资料是间断性的，而χ2分布是连续型的，检验计算所得的χ2
值只是近似地服从χ2分布，所以应用连续型的χ2分布的概率检验间断性资料所得的χ2值就有一定的偏差。

χ2 < χ
2
α
P > α χ2 > χ2α
P < α
H 0 H 0
χ2＝ ∑
（ O i －E i － 0.5 ）2
E i
由次数资料算得的χ2均有偏大的趋势，即概率偏低。

当df=1，尤其是小样本时，必须作连续性矫正。

第五章第二节适合性检验
适合性检验定义：比较观测数与理论数是否符合的假设检验。

用途
鲤鱼遗传试验F2观测结果
（1） H0：鲤鱼体色F2分离符合3：1比率; HA ：鲤鱼体色F2分离不符合3：1比率; （2）取显著水平α＝0.05 （3）计算统计数χ2 ：
样本的分布与理论分布是否相等
适合性检验的df 由于受理论值的总和等于
观测值总和这一条件的约束，故df =n-1
χ2c
＝
∑
（ O i －E i － 0.5 ）2
E i
df= k-1 = 2-1 =1 需要连续性校正
在无效假设H0正确的前提下，青灰色的理论数为：Ei ＝1602×3/4=1201.5 红色理论数为： Ei ＝1602×1/4=400.5
=75.41+226.22＝301.63
（4）查χ2值表，当df=1时，χ20.05 ＝3.84。

现实得χ2c ＝301.63＞χ20.05 ，故应否
定H0 ，接受HA ，即认为鲤鱼体色F2分离不符合3：1比率。

在遗传学中，有许多显、隐性比率可以划分为两组的资料，如欲测其与某种理论比率的适合性，则χ2值可用下表中的简式进行计算：
检验两组资料与某种理论比率符合度的χ2值公式
例：大豆花色遗传试验F2观测结果
χ2
＝ ∑
（ O i －E i － 0.5 ）2
E i
i=1
2
=
（1503－1201.5 － 0.5 ）2 1201.5 （99－400.5 － 0.5 ）2 400.5
(1) H0 ：大豆花色F2分离符合3：1比率；
HA ：大豆花色F2分离不符合3：1比率；
(2)取显著水平α＝0.05
(3)计算统计数χ2值：
接受H0 ，即大豆花色F2分离符合3：1比率
对于资料组数多于两组的值，还可以通过下面简式进行计算：
Oi －第i 组的实际观测数
pi －第i 组的理论比率
n－总次数
根据自由组合规律，理论分离比为：
(1) H0 ：豌豆F2分离符合9：3：3：1的自由组合规律； HA ：豌豆F2分离不符合9：3：3：1的自由组合规律； (2)取显著水平α ＝0.05 (3)计算统计数χ2值：
χ2 ＝0.016+0.101+0.135+0.218＝0.470 (4)查值表，进行推断：
F2代，共556粒
315 101 108 32
豌豆
此结果是否符合自由组合规律
接受H0 ，即豌豆F2分离符合9：3：3：1的自由组合规律。

χ2 ＝0.016+0.101+0.135+0.218＝0.470
P ＞0.05
315 101 108 32。

第五章第一次课 卡方检验 第一节检验原理 第二及节 适合性检验

重庆大学生物统计学_第五章 卡方检验

生物统计学—卡方检验

生物统计学第四版--教学大纲

5 卡方检验分析

生物统计学 第五章 卡方检验

第五章卡方检验

5. 卡方检验

5第五章 拟合优度检验

卡方检验

生物统计学第五章 卡方检验

卡方检验专题知识讲座

卡方检验

第5讲 卡方检验

卡方检验-适合性检验

5-卡方检验

次数资料分析卡方检验

第五章卡方检验-精选文档

第五章第一次课 卡方检验 第一节检验原理 第二及节 适合性检验

第五章第一次课卡方检验第一节检验原理第二及节适合性检验

重庆大学生物统计学_第五章卡方检验

生物统计学第五章卡方检验

5第五章拟合优度检验

生物统计学第五章卡方检验

第5讲卡方检验

第五章第一次课卡方检验第一节检验原理第二及节适合性检验