生物统计学第五章 χ2检验
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
是指对样本的理论数先通过一定的理论分 布推算出来,然后用实际观测值与理论数相比 实际观测值与 布推算出来,然后用实际观测值 理论数相比 较,从而得出实际观测值与理论数之间是否吻 因此又叫吻合度检验。 合。因此又叫吻合度检验。
独立性检验
是指研究两个或两个以上 两个或两个以上的 是指研究两个或两个以上的计数资料或属 性资料之间是相互独立的或者是相互联系的假 性资料之间是相互独立的或者是相互联系的假 设检验, 设检验,通过假设所观测的各属性之间没有关 然后证明这种无关联的假设是否成立。 联,然后证明这种无关联的假设是否成立。
羔羊性别观察值与理论值
性别 公 母 合计 观察值( ) 观察值(O) 428 448 876 理论值(E) 理论值 438 438 876 O-E -10 +10
0
由于差数之和正负相消,并不能反映实 由于差数之和正负相消, 际观测值与理论值相差的大小。 际观测值与理论值相差的大小。
为了避免正、负相抵消的问题, 为了避免正、负相抵消的问题,可将实际 观测值与理论值的差数平方后再相加, 观测值与理论值的差数平方后再相加,也就是 计算: 计算:
3.计算样本的χ 3.计算样本的χ2值 计算样本的
4.进行统计推断 4.进行统计推断 χ2 < χ2α χ2 > χ2α P > α P < α H0 H0 HA HA
χ2检验的注意事项
1、任何一组的理论次数Ei 都必须大于5,如果Ei 任何一组的理论次数E 都必须大于5 如果E ≤5, ≤5,则需要合并理论组或增大样本容量以满足 Ei > 5 在自由度= 需进行连续性矫正, 2、在自由度=1时,需进行连续性矫正,其矫正 的 χ 2c 为 : χ2= ∑ ( Oi-Ei - 0.5 )2 Ei
需要连续性校正
在无效假设H0正确的前提下,青灰色的理论数为: 在无效假设 正确的前提下,青灰色的理论数为: Ei =1602×3/4=1201.5 × 红色理论数为: 红色理论数为: Ei =1602×1/4=400.5 ×
χ2= ∑ =
2 ( O -E - 0.5 )2 i i
i=1
Ei + (99-400.5 - 0.5 )2 - 400.5
1.提出无效假设H 1.提出无效假设H0 提出无效假设
基本步骤
观测值与理论值的差异由抽样误差引起, 观测值与理论值的差异由抽样误差引起,即 观测值=理论值。同时给出相就的备择假设H 观测值=理论值。同时给出相就的备择假设HA : 观测值与理论值的差值不等于0 即观测值≠ 观测值与理论值的差值不等于0,即观测值≠理 论值 2.确定显著水平α 2.确定显著水平α 确定显著水平 一般确定为0.05或 一般确定为0.05或0.01 0.05
资
料
连续型资料
离散型资料
大样本
小样本
χ 检验
2
u检验
u检验
t检验
第五章 五
2检验 χ
一、χ2检验的定义 二、χ2检验与连续型资料假设检验的区别
三、χ2检验的用途
一、χ2检验的定义
χ2 检验 检验(Chi-square test)
对样本的频数分布所来自的总体分布是 否服从某种理论分布或某种假设分布所作的 假设检验, 假设检验,即根据样本的频数分布来推断总 体的分布。 体的分布。
二、χ2检验与连续型资料假设检验的区别
χ2 检验 数据资料 总体 检验对象 离散型资料 总体分布是未知的
连续型资料假设检验 连续型 连续型资料 正态分布
不是对总体参数的检 验,而是对总体分布 的假设检验
对总体参数或几个总体 参数之差
三、χ2检验的用途
适合性检验
独立性检验
同质性检验
适合性检验(吻合度检验) 适合性检验(吻合度检验)
在遗传学中,有许多显、隐性比率可以划分 在遗传学中,有许多显、 为两组的资料, 为两组的资料,如欲测其与某种理论比率的适合 性,则χ2值可用下表中的简式进行计算: 值可用下表中的简式进行计算:
检验两组资料与某种理论比率符合度的χ2值公式 检验两组资料与某种理论比率符合度的χ
理论比率(显性:隐性) 理论比率(显性:隐性) χ2计算公式
χ2分布是连续型变量的分布,每个不同的自由度都有一个相 分布是连续型变量的分布, 分布曲线,所以其分布是一组曲线。 应的χ2分布曲线,所以其分布是一组曲线。
由于检验的对象-次数资料是间断性的, 由于检验的对象-次数资料是间断性的,而χ2分布 是间断性的 是连续型的, 是连续型的,检验计算所得的χ2值只是近似地服从χ2 分布, 分布的概率检验间断性资料 分布,所以应用连续型的χ2分布的概率检验间断性资料 值就有一定的偏差。 所得的χ2值就有一定的偏差。
(O-E)2 - ) 100 100
两组差数虽然相同,但其差数占理论值的比重不同。 两组差数虽然相同,但其差数占理论值的比重不同。 比重不同
为了弥补这一不足, 为了弥补这一不足,可先将实际观测值与理 论值的差数平方 平方, 论值的差数平方,即(O-E)2,再用差数的平方 除以相应的理论值,将之化为相对数,从而来反 除以相应的理论值,将之化为相对数, 的比重,最后将各组求和, 映(O-E)2 的比重,最后将各组求和,这个总 和就是χ 和就是χ2 。
χ2检验与测量数据假设检验的区别 检验与测量数据假设检验的区别(3)
测量数据的假设检验是对总体参数或几 个总体参数之差所进行的假设检验,而χ2 检 个总体参数之差所进行的假设检验, 验在多数情况下不是对总体参数的检验, 验在多数情况下不是对总体参数的检验,而 是对总体分布的假设检验。 是对总体分布的假设检验。
就是统计样本的实际观测值 实际观测值与 χ2检验就是统计样本的实际观测值与理论推 之间的偏离程度。 算值之间的偏离程度 算值之间的偏离程度。 实际观测值与理论推算值之间的偏离程度就决 定其χ2值的大小。理论值与实际值之间偏差越大, 定其χ 值的大小。理论值与实际值之间偏差越大, 值就越大,越不符合;偏差越小, 值就越小, χ2值就越大,越不符合;偏差越小,χ2值就越小, 值就为0 越趋于符合;若两值完全相等时, 越趋于符合;若两值完全相等时, χ2值就为0, 表明理论值完全符合。 表明理论值完全符合。
(1503-120ຫໍສະໝຸດ .5 - 0.5 )2 - 1201.5
=75.41+226.22=301.63 = 值表, df=1时 3.84。 (4)查χ2值表,当df=1时,χ20.05 =3.84。现实 301.63> 故应否定H 接受H 得χ2c =301.63>χ20.05 ,故应否定H0 ,接受HA , 即认为鲤鱼体色F2分离不符合3 即认为鲤鱼体色F2分离不符合3:1比率。 F2分离不符合 比率。
∑(O-E)2
O--实际观察的频数 --实际观察的频数 E--无效假设下的期望频数 --无效假设下的期望频数
羔羊性别观测值与理论值 性别 公 母 合计 观测值( ) 观测值(O) 428 448 876 理论值(E) 理论值 438 438 876 O-E -10 +10 0 (O-E)2 - ) 100 100
2
r + m mA − ra − 2 rmn
2
大豆花色遗传试验F 大豆花色遗传试验F2观测结果
均有偏大的趋势, 由次数资料算得的χ2均有偏大的趋势,即概率偏 低。当df=1,尤其是小样本时,必须作连续性矫正。 ,尤其是小样本时,必须作连续性矫正。
χ2c = ∑
( Oi-Ei - 0.5 )2 Ei
第二节:适合性检验
定义
适合性检验
比较观测数与理论数是否符合的假设检验。 比较观测数与理论数是否符合的假设检验。
(A
(A (A (A
− a n
− 2 a 2 n − 3 a 3 n − 15 a 15 n − 8 − 2 − 1 .5
1 :1 2 :1 3 :1 15: 15:1 9 :7 r :1 r :m
− 1
)
2
) )
2
2
)
2
(7
A − 9a − 8 63 n
)
2
A − ra
r + 1 − 2 rn
羔羊性别观测值与理论值 性别 公 母 合计 观测值 (O) ) 428 448 876 (Oi-Ei)2 Ei 理论值(E) 理论值 438 438 876 O-E -10 +10 0 (O-E)2 /E - ) 0.2283 0.2283 0.4566
χ2= ∑
χ2值就等于各组观测 值和理论值差的平方与理 论值之比,再求其和。 论值之比,再求其和。
用途
遗传学中用以检验实际结果是否符合遗传规律
孟德尔分离规律 自由组合定律
样本的分布与理论分布是否相等 适合性检验的df由于受理论值的总和等于 观测值总和这一条件的约束, =n观测值总和这一条件的约束,故df=n-1
鲤鱼遗传试验F 鲤鱼遗传试验F2观测结果
体色 F2观测尾数
青灰色 1503
红色 99
χ2值的特点
可加性
非负值 随O和E而变化 和 而变化 χ2= ∑ (Oi-Ei)2 Ei
值与概率P成反比, 值越小, 值越大, χ2值与概率P成反比, χ2值越小,P值越大, 说明实际值与理论值之差越小, 说明实际值与理论值之差越小,样本分布与假设的 理论分布越相一致; 理论分布越相一致; 越大, 值越小,说明两者之差越大, χ2越大,P值越小,说明两者之差越大,样本 分布与假设理论分布越不一致。 分布与假设理论分布越不一致。
原理
理论值
观测值
Ⅰ Ⅱ Ⅲ
χ2检验统计量的基本形式
χ2= ∑ (Oi-Ei)2 Ei
O--实际观察的频数(observational frequency) --实际观察的频数 实际观察的频数( ) E--无效假设下的期望频数(expectation frequency) --无效假设下的期望频数 无效假设下的期望频数( )
876只羔羊性别调察 只羔羊性别调察
性别 公 母 合计 观察值( ) 观察值(O) 428 448 876 理论值(E) 理论值 438 438 876 O-E -10 +10 0
要回答这个问题,首先需要确定一个统计量, 要回答这个问题,首先需要确定一个统计量, 将其用来表示实际观测值 理论值偏离的程度 实际观测值与 偏离的程度; 将其用来表示实际观测值与理论值偏离的程度; 然后判断这一偏离程度是否属于抽样误差, 然后判断这一偏离程度是否属于抽样误差,即进 行显著性检验。 行显著性检验。 判断实际观测值与理论值偏离的程度,最简 判断实际观测值与理论值偏离的程度, 差数。 单的办法是求出实际观测值与理论值的差数 单的办法是求出实际观测值与理论值的差数。
总数 1602
鲤鱼体色F 分离符合3:1比率; 比率; (1) H0:鲤鱼体色F2分离符合 ) 比率 HA:鲤鱼体色F2分离不符合3:1比率; 鲤鱼体色F 分离不符合3 比率;
(2)取显著水平α=0.05 )取显著水平α (3)计算统计数χ2 : )计算统计数χ k2df= k-1 = 2-1 =1
χ2检验与测量数据假设检验的区别 检验与测量数据假设检验的区别(1)
测量数据的假设检验, 测量数据的假设检验,其数据属于连续 变量, 变量,而χ2检验的数据属于点计而来的间断 变量。 变量。
χ2检验与测量数据假设检验的区别 检验与测量数据假设检验的区别(2)
测量数据所来自的总体要求呈正态分布, 测量数据所来自的总体要求呈正态分布,而 正态分布 χ2检验的数据所来自的总体分布是未知的。 检验的数据所来自的总体分布是未知 未知的
同质性检验
在连续型资料的假设检验中, 一个样本 在连续型资料的假设检验中,对一个样本 方差的同质性检验,也需进行χ 检验。 方差的同质性检验,也需进行χ2 检验。 的同质性检验
第一节: χ2检验的原理与方法 χ2检验的基本原理 χ2检验统计量的基本形式 χ2值的特点 χ2检验的基本步骤 χ2检验的注意事项
(Oi − Ei ) 2 ∑
值越大, 值越大,观测值与理论值相差也就
越大,反之越小。 越大,反之越小。
奖学金
200元 200元
一等 10元 元
5%
70 元
三等 10元 元 实际得到60元 实际得到60元 60
14% 14%
实际得到190元 实际得到190元 190
观测值( ) 理论( ) 等级 观测值(O) 理论(E) O-E 一等 三等 190 60 200 70 -10 -10
独立性检验
是指研究两个或两个以上 两个或两个以上的 是指研究两个或两个以上的计数资料或属 性资料之间是相互独立的或者是相互联系的假 性资料之间是相互独立的或者是相互联系的假 设检验, 设检验,通过假设所观测的各属性之间没有关 然后证明这种无关联的假设是否成立。 联,然后证明这种无关联的假设是否成立。
羔羊性别观察值与理论值
性别 公 母 合计 观察值( ) 观察值(O) 428 448 876 理论值(E) 理论值 438 438 876 O-E -10 +10
0
由于差数之和正负相消,并不能反映实 由于差数之和正负相消, 际观测值与理论值相差的大小。 际观测值与理论值相差的大小。
为了避免正、负相抵消的问题, 为了避免正、负相抵消的问题,可将实际 观测值与理论值的差数平方后再相加, 观测值与理论值的差数平方后再相加,也就是 计算: 计算:
3.计算样本的χ 3.计算样本的χ2值 计算样本的
4.进行统计推断 4.进行统计推断 χ2 < χ2α χ2 > χ2α P > α P < α H0 H0 HA HA
χ2检验的注意事项
1、任何一组的理论次数Ei 都必须大于5,如果Ei 任何一组的理论次数E 都必须大于5 如果E ≤5, ≤5,则需要合并理论组或增大样本容量以满足 Ei > 5 在自由度= 需进行连续性矫正, 2、在自由度=1时,需进行连续性矫正,其矫正 的 χ 2c 为 : χ2= ∑ ( Oi-Ei - 0.5 )2 Ei
需要连续性校正
在无效假设H0正确的前提下,青灰色的理论数为: 在无效假设 正确的前提下,青灰色的理论数为: Ei =1602×3/4=1201.5 × 红色理论数为: 红色理论数为: Ei =1602×1/4=400.5 ×
χ2= ∑ =
2 ( O -E - 0.5 )2 i i
i=1
Ei + (99-400.5 - 0.5 )2 - 400.5
1.提出无效假设H 1.提出无效假设H0 提出无效假设
基本步骤
观测值与理论值的差异由抽样误差引起, 观测值与理论值的差异由抽样误差引起,即 观测值=理论值。同时给出相就的备择假设H 观测值=理论值。同时给出相就的备择假设HA : 观测值与理论值的差值不等于0 即观测值≠ 观测值与理论值的差值不等于0,即观测值≠理 论值 2.确定显著水平α 2.确定显著水平α 确定显著水平 一般确定为0.05或 一般确定为0.05或0.01 0.05
资
料
连续型资料
离散型资料
大样本
小样本
χ 检验
2
u检验
u检验
t检验
第五章 五
2检验 χ
一、χ2检验的定义 二、χ2检验与连续型资料假设检验的区别
三、χ2检验的用途
一、χ2检验的定义
χ2 检验 检验(Chi-square test)
对样本的频数分布所来自的总体分布是 否服从某种理论分布或某种假设分布所作的 假设检验, 假设检验,即根据样本的频数分布来推断总 体的分布。 体的分布。
二、χ2检验与连续型资料假设检验的区别
χ2 检验 数据资料 总体 检验对象 离散型资料 总体分布是未知的
连续型资料假设检验 连续型 连续型资料 正态分布
不是对总体参数的检 验,而是对总体分布 的假设检验
对总体参数或几个总体 参数之差
三、χ2检验的用途
适合性检验
独立性检验
同质性检验
适合性检验(吻合度检验) 适合性检验(吻合度检验)
在遗传学中,有许多显、隐性比率可以划分 在遗传学中,有许多显、 为两组的资料, 为两组的资料,如欲测其与某种理论比率的适合 性,则χ2值可用下表中的简式进行计算: 值可用下表中的简式进行计算:
检验两组资料与某种理论比率符合度的χ2值公式 检验两组资料与某种理论比率符合度的χ
理论比率(显性:隐性) 理论比率(显性:隐性) χ2计算公式
χ2分布是连续型变量的分布,每个不同的自由度都有一个相 分布是连续型变量的分布, 分布曲线,所以其分布是一组曲线。 应的χ2分布曲线,所以其分布是一组曲线。
由于检验的对象-次数资料是间断性的, 由于检验的对象-次数资料是间断性的,而χ2分布 是间断性的 是连续型的, 是连续型的,检验计算所得的χ2值只是近似地服从χ2 分布, 分布的概率检验间断性资料 分布,所以应用连续型的χ2分布的概率检验间断性资料 值就有一定的偏差。 所得的χ2值就有一定的偏差。
(O-E)2 - ) 100 100
两组差数虽然相同,但其差数占理论值的比重不同。 两组差数虽然相同,但其差数占理论值的比重不同。 比重不同
为了弥补这一不足, 为了弥补这一不足,可先将实际观测值与理 论值的差数平方 平方, 论值的差数平方,即(O-E)2,再用差数的平方 除以相应的理论值,将之化为相对数,从而来反 除以相应的理论值,将之化为相对数, 的比重,最后将各组求和, 映(O-E)2 的比重,最后将各组求和,这个总 和就是χ 和就是χ2 。
χ2检验与测量数据假设检验的区别 检验与测量数据假设检验的区别(3)
测量数据的假设检验是对总体参数或几 个总体参数之差所进行的假设检验,而χ2 检 个总体参数之差所进行的假设检验, 验在多数情况下不是对总体参数的检验, 验在多数情况下不是对总体参数的检验,而 是对总体分布的假设检验。 是对总体分布的假设检验。
就是统计样本的实际观测值 实际观测值与 χ2检验就是统计样本的实际观测值与理论推 之间的偏离程度。 算值之间的偏离程度 算值之间的偏离程度。 实际观测值与理论推算值之间的偏离程度就决 定其χ2值的大小。理论值与实际值之间偏差越大, 定其χ 值的大小。理论值与实际值之间偏差越大, 值就越大,越不符合;偏差越小, 值就越小, χ2值就越大,越不符合;偏差越小,χ2值就越小, 值就为0 越趋于符合;若两值完全相等时, 越趋于符合;若两值完全相等时, χ2值就为0, 表明理论值完全符合。 表明理论值完全符合。
(1503-120ຫໍສະໝຸດ .5 - 0.5 )2 - 1201.5
=75.41+226.22=301.63 = 值表, df=1时 3.84。 (4)查χ2值表,当df=1时,χ20.05 =3.84。现实 301.63> 故应否定H 接受H 得χ2c =301.63>χ20.05 ,故应否定H0 ,接受HA , 即认为鲤鱼体色F2分离不符合3 即认为鲤鱼体色F2分离不符合3:1比率。 F2分离不符合 比率。
∑(O-E)2
O--实际观察的频数 --实际观察的频数 E--无效假设下的期望频数 --无效假设下的期望频数
羔羊性别观测值与理论值 性别 公 母 合计 观测值( ) 观测值(O) 428 448 876 理论值(E) 理论值 438 438 876 O-E -10 +10 0 (O-E)2 - ) 100 100
2
r + m mA − ra − 2 rmn
2
大豆花色遗传试验F 大豆花色遗传试验F2观测结果
均有偏大的趋势, 由次数资料算得的χ2均有偏大的趋势,即概率偏 低。当df=1,尤其是小样本时,必须作连续性矫正。 ,尤其是小样本时,必须作连续性矫正。
χ2c = ∑
( Oi-Ei - 0.5 )2 Ei
第二节:适合性检验
定义
适合性检验
比较观测数与理论数是否符合的假设检验。 比较观测数与理论数是否符合的假设检验。
(A
(A (A (A
− a n
− 2 a 2 n − 3 a 3 n − 15 a 15 n − 8 − 2 − 1 .5
1 :1 2 :1 3 :1 15: 15:1 9 :7 r :1 r :m
− 1
)
2
) )
2
2
)
2
(7
A − 9a − 8 63 n
)
2
A − ra
r + 1 − 2 rn
羔羊性别观测值与理论值 性别 公 母 合计 观测值 (O) ) 428 448 876 (Oi-Ei)2 Ei 理论值(E) 理论值 438 438 876 O-E -10 +10 0 (O-E)2 /E - ) 0.2283 0.2283 0.4566
χ2= ∑
χ2值就等于各组观测 值和理论值差的平方与理 论值之比,再求其和。 论值之比,再求其和。
用途
遗传学中用以检验实际结果是否符合遗传规律
孟德尔分离规律 自由组合定律
样本的分布与理论分布是否相等 适合性检验的df由于受理论值的总和等于 观测值总和这一条件的约束, =n观测值总和这一条件的约束,故df=n-1
鲤鱼遗传试验F 鲤鱼遗传试验F2观测结果
体色 F2观测尾数
青灰色 1503
红色 99
χ2值的特点
可加性
非负值 随O和E而变化 和 而变化 χ2= ∑ (Oi-Ei)2 Ei
值与概率P成反比, 值越小, 值越大, χ2值与概率P成反比, χ2值越小,P值越大, 说明实际值与理论值之差越小, 说明实际值与理论值之差越小,样本分布与假设的 理论分布越相一致; 理论分布越相一致; 越大, 值越小,说明两者之差越大, χ2越大,P值越小,说明两者之差越大,样本 分布与假设理论分布越不一致。 分布与假设理论分布越不一致。
原理
理论值
观测值
Ⅰ Ⅱ Ⅲ
χ2检验统计量的基本形式
χ2= ∑ (Oi-Ei)2 Ei
O--实际观察的频数(observational frequency) --实际观察的频数 实际观察的频数( ) E--无效假设下的期望频数(expectation frequency) --无效假设下的期望频数 无效假设下的期望频数( )
876只羔羊性别调察 只羔羊性别调察
性别 公 母 合计 观察值( ) 观察值(O) 428 448 876 理论值(E) 理论值 438 438 876 O-E -10 +10 0
要回答这个问题,首先需要确定一个统计量, 要回答这个问题,首先需要确定一个统计量, 将其用来表示实际观测值 理论值偏离的程度 实际观测值与 偏离的程度; 将其用来表示实际观测值与理论值偏离的程度; 然后判断这一偏离程度是否属于抽样误差, 然后判断这一偏离程度是否属于抽样误差,即进 行显著性检验。 行显著性检验。 判断实际观测值与理论值偏离的程度,最简 判断实际观测值与理论值偏离的程度, 差数。 单的办法是求出实际观测值与理论值的差数 单的办法是求出实际观测值与理论值的差数。
总数 1602
鲤鱼体色F 分离符合3:1比率; 比率; (1) H0:鲤鱼体色F2分离符合 ) 比率 HA:鲤鱼体色F2分离不符合3:1比率; 鲤鱼体色F 分离不符合3 比率;
(2)取显著水平α=0.05 )取显著水平α (3)计算统计数χ2 : )计算统计数χ k2df= k-1 = 2-1 =1
χ2检验与测量数据假设检验的区别 检验与测量数据假设检验的区别(1)
测量数据的假设检验, 测量数据的假设检验,其数据属于连续 变量, 变量,而χ2检验的数据属于点计而来的间断 变量。 变量。
χ2检验与测量数据假设检验的区别 检验与测量数据假设检验的区别(2)
测量数据所来自的总体要求呈正态分布, 测量数据所来自的总体要求呈正态分布,而 正态分布 χ2检验的数据所来自的总体分布是未知的。 检验的数据所来自的总体分布是未知 未知的
同质性检验
在连续型资料的假设检验中, 一个样本 在连续型资料的假设检验中,对一个样本 方差的同质性检验,也需进行χ 检验。 方差的同质性检验,也需进行χ2 检验。 的同质性检验
第一节: χ2检验的原理与方法 χ2检验的基本原理 χ2检验统计量的基本形式 χ2值的特点 χ2检验的基本步骤 χ2检验的注意事项
(Oi − Ei ) 2 ∑
值越大, 值越大,观测值与理论值相差也就
越大,反之越小。 越大,反之越小。
奖学金
200元 200元
一等 10元 元
5%
70 元
三等 10元 元 实际得到60元 实际得到60元 60
14% 14%
实际得到190元 实际得到190元 190
观测值( ) 理论( ) 等级 观测值(O) 理论(E) O-E 一等 三等 190 60 200 70 -10 -10