统计学--第十二章卡方检验1共35页
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
– 不妨把H0看作:1=2=两样本合并的 阳性率
• 2)实际数与理论数的差值服从2分布,又 称pearson 2 :
2 (OT)2 T
– 2值是以理论数为基数的相对误差, 它反映了实际数与理论数吻合的程度 (差别的程度)。若检验假设成立,则实 际数与理论数的差别不会很大,出现 大的2值的概率是很小的,若P,就 怀疑假设,因而拒绝它;若P>,则尚 无理由拒绝它
– Trc=(nrnc)/n:理论数为行合计乘列合计 除总合计
– 理论数有两个特征:1)理论频数表的构 成比相同,即不但各行构成比相同, 而且各列亦相同;2)各个基本格子实际 数与理论数的差别(绝对值)相同
• 5、样本率的差别演绎为实际数与理论数 的差别:
– 两样本率相差愈大,则实际数与理论 数的差别就愈大。若无效假设成立, 实际数与理论数之差就不会很大。
2= (O-T-0.5)2
T
• 8、四格表专用公式
• 为方便起见,当基本格子的实际数命名 为a,b,c,d;行合计写为a+b、c+d,列合计
写为a+c、b+d,n为总观察数
2=
(ad bc)2 n
(a b)(c d )(a c)(b d )
校正公式为:
2= ( ad bc -n / 2)2 n
• 2、多个构成比比较
• 3、双向有序分类资料的关联性检验
– 表格是按两个变量从小到大顺序分类 整理出来的,目的是研究两变量间有 无关联性。从左上角往右下角看,频 数有无集中在此对角线上的趋势,即 两变量有关联。若频数在这些格子均 匀分布,或各行分布(构成比)相同,且 各列分布(构成比)相同,则表示两个变 量无关联性了。
(a b)(c d )(a c)(b d )
组别
阳性
阴性
合计
甲
a
b
a+b
乙
c
d
c+d
合计
a+c
b+d a+b+c+d= n
第二节 行×列表的2检验
• 当行或列超过2组时通称为行×列表,或 R×C表,亦称列联表contingency table。 可用于
• 1、多个率的比较 • 可用以下简化公式(无相应校正公式)
• 3)查2分布界值表确定P值并作出推论
– 2 =39.93,自由度为1,查附表6-7
– 2 0.05(1)=3.84; 2 0.01(1) =6.63; 2 0.001(1) =10.83
– 一般类型的治愈率高于特殊类型(结合 样本率作实际推论)
– P<0.001, 按=0.05水准,拒绝H0接受 H1,因而认为两总体的阳性率有差别 (统计学推论)。结果说明,两组胃溃疡 病人治愈率的差别有高度统计意义,
2 n( O2 1) nrnc
• 适用条件:不能有理论数小于1,并且1T5
的格子数不超过总格子数1/5。
• 条件不足时的三种处理方法:
– 1)增大样本例数使理论数变大
– 2)删除理论数太小的行或列
– 3)将理论数太小的行或列与性质相近的 邻行或邻列合并,使重新计算的理论 数增大。但是此处理可能损失信息, 也会损害样本的随机性,不同的合并 方式所得的结果也不一样,因而在不 得已时慎用
第一节 四格表资料的2检验
• 以P153例12-1为例
• 1、四格表:将资料列成表格,表格中四 个数字是基本的:63、17、31、68,称 四格表fourfold table
• 2、实际数:表内各格数字为实际资料的 数字,称observed value, actual frequency, 记为O或A
• 7、 2值的校正、四格表2检验的条件
• 实际上2值是根据正态分布中2 =[(xi) /]2的定义计算出来的,用前述公式算 得的值只能说近似于2分布,在自由度 大于1,理论数皆大于5时,这种近似较 好;自由度为1,当有理论数小于5时, 需进行(连续性)校正
• 2检验条件:(四格表) – 1、当n40且所有T5时,用普通的2 检验;若所得P ,改用确切概率法。 – 2、当n40但有1T<5时,用校正2检 验 – 3、当n<40或有T<1时,不能用2检验, 改用确切概率法。
• 3、理论治愈率:
– 根据两组治愈率相同的假设,合计治 疗179人,总Biblioteka Baidu愈94人,得理论治愈率 为 94/179=52.51%
• 4、理论数:
– 一般溃疡患者80,按理论治愈率应治 愈80×52.51%=42.01,称theoretical value, theoretical frequency. 记为T。同理可得 其余理论数。亦可由减法求得
– 两样本率不同的原因:抽样误差、总 体率确实不同
两种类型胃溃疡病内科疗法治疗结果
组别
治愈
未愈
合计
一 般 类 型 63(42.01) 17(37.99) 80
特 殊 类 型 31(51.99) 68(47.01) 99
合计
94
85
179
– 为检验是否为第二种情况,无效假设 为两种治愈率本无不同,差别仅由抽 样误差所致。
• R×C表2检验注意事项
– 若表格有一个方向按多个等级分类, 则称为单向有序行列表,当等级数大 于3时,一般用秩和检验分析更为合适。
似然比卡方统计量
• Likelihood ratio chi-square
• 自由度的确定及临界值与Pearson卡方一致
L2
k
2
i1
Ai ln(TAii )
• 理论上当样本量相当大时,Pearson卡方和似然比 卡方都接近卡方分布;样本不够大时都偏离卡方
• 1)实际数与理论数之间的差别等价于两 样本率的差别
• 2)检验假设H0:四格表的构成比相同, 等价于H0:两总体率相等
• 3)对实际数与理论数差值的假设检验, 等价于对两样本率差值的假设检验
• 6、2检验的基本思想(及计算步骤)
• 1)假设两总体率相等(构成比相同)
– HO:1=2,即两总体阳性率相等 – H1:12,即两总体阳性率不等 – =0.05
– 2值的大小随着格子数的增加而变大, 即2分布与自由度有关。因而考虑2值 大小的意义时,要考虑到格子数。当 周边合计数固定的情况下,四个基本 数据当中只有一个可以自由取值,即 自由度为1。
• =(R-1)(C-1)
– R行C列时,R行中有一行数据受到列 合计的限制而不能自由变动,C列中亦 有一列数据在行合计的限制下不能自 由取值
• 2)实际数与理论数的差值服从2分布,又 称pearson 2 :
2 (OT)2 T
– 2值是以理论数为基数的相对误差, 它反映了实际数与理论数吻合的程度 (差别的程度)。若检验假设成立,则实 际数与理论数的差别不会很大,出现 大的2值的概率是很小的,若P,就 怀疑假设,因而拒绝它;若P>,则尚 无理由拒绝它
– Trc=(nrnc)/n:理论数为行合计乘列合计 除总合计
– 理论数有两个特征:1)理论频数表的构 成比相同,即不但各行构成比相同, 而且各列亦相同;2)各个基本格子实际 数与理论数的差别(绝对值)相同
• 5、样本率的差别演绎为实际数与理论数 的差别:
– 两样本率相差愈大,则实际数与理论 数的差别就愈大。若无效假设成立, 实际数与理论数之差就不会很大。
2= (O-T-0.5)2
T
• 8、四格表专用公式
• 为方便起见,当基本格子的实际数命名 为a,b,c,d;行合计写为a+b、c+d,列合计
写为a+c、b+d,n为总观察数
2=
(ad bc)2 n
(a b)(c d )(a c)(b d )
校正公式为:
2= ( ad bc -n / 2)2 n
• 2、多个构成比比较
• 3、双向有序分类资料的关联性检验
– 表格是按两个变量从小到大顺序分类 整理出来的,目的是研究两变量间有 无关联性。从左上角往右下角看,频 数有无集中在此对角线上的趋势,即 两变量有关联。若频数在这些格子均 匀分布,或各行分布(构成比)相同,且 各列分布(构成比)相同,则表示两个变 量无关联性了。
(a b)(c d )(a c)(b d )
组别
阳性
阴性
合计
甲
a
b
a+b
乙
c
d
c+d
合计
a+c
b+d a+b+c+d= n
第二节 行×列表的2检验
• 当行或列超过2组时通称为行×列表,或 R×C表,亦称列联表contingency table。 可用于
• 1、多个率的比较 • 可用以下简化公式(无相应校正公式)
• 3)查2分布界值表确定P值并作出推论
– 2 =39.93,自由度为1,查附表6-7
– 2 0.05(1)=3.84; 2 0.01(1) =6.63; 2 0.001(1) =10.83
– 一般类型的治愈率高于特殊类型(结合 样本率作实际推论)
– P<0.001, 按=0.05水准,拒绝H0接受 H1,因而认为两总体的阳性率有差别 (统计学推论)。结果说明,两组胃溃疡 病人治愈率的差别有高度统计意义,
2 n( O2 1) nrnc
• 适用条件:不能有理论数小于1,并且1T5
的格子数不超过总格子数1/5。
• 条件不足时的三种处理方法:
– 1)增大样本例数使理论数变大
– 2)删除理论数太小的行或列
– 3)将理论数太小的行或列与性质相近的 邻行或邻列合并,使重新计算的理论 数增大。但是此处理可能损失信息, 也会损害样本的随机性,不同的合并 方式所得的结果也不一样,因而在不 得已时慎用
第一节 四格表资料的2检验
• 以P153例12-1为例
• 1、四格表:将资料列成表格,表格中四 个数字是基本的:63、17、31、68,称 四格表fourfold table
• 2、实际数:表内各格数字为实际资料的 数字,称observed value, actual frequency, 记为O或A
• 7、 2值的校正、四格表2检验的条件
• 实际上2值是根据正态分布中2 =[(xi) /]2的定义计算出来的,用前述公式算 得的值只能说近似于2分布,在自由度 大于1,理论数皆大于5时,这种近似较 好;自由度为1,当有理论数小于5时, 需进行(连续性)校正
• 2检验条件:(四格表) – 1、当n40且所有T5时,用普通的2 检验;若所得P ,改用确切概率法。 – 2、当n40但有1T<5时,用校正2检 验 – 3、当n<40或有T<1时,不能用2检验, 改用确切概率法。
• 3、理论治愈率:
– 根据两组治愈率相同的假设,合计治 疗179人,总Biblioteka Baidu愈94人,得理论治愈率 为 94/179=52.51%
• 4、理论数:
– 一般溃疡患者80,按理论治愈率应治 愈80×52.51%=42.01,称theoretical value, theoretical frequency. 记为T。同理可得 其余理论数。亦可由减法求得
– 两样本率不同的原因:抽样误差、总 体率确实不同
两种类型胃溃疡病内科疗法治疗结果
组别
治愈
未愈
合计
一 般 类 型 63(42.01) 17(37.99) 80
特 殊 类 型 31(51.99) 68(47.01) 99
合计
94
85
179
– 为检验是否为第二种情况,无效假设 为两种治愈率本无不同,差别仅由抽 样误差所致。
• R×C表2检验注意事项
– 若表格有一个方向按多个等级分类, 则称为单向有序行列表,当等级数大 于3时,一般用秩和检验分析更为合适。
似然比卡方统计量
• Likelihood ratio chi-square
• 自由度的确定及临界值与Pearson卡方一致
L2
k
2
i1
Ai ln(TAii )
• 理论上当样本量相当大时,Pearson卡方和似然比 卡方都接近卡方分布;样本不够大时都偏离卡方
• 1)实际数与理论数之间的差别等价于两 样本率的差别
• 2)检验假设H0:四格表的构成比相同, 等价于H0:两总体率相等
• 3)对实际数与理论数差值的假设检验, 等价于对两样本率差值的假设检验
• 6、2检验的基本思想(及计算步骤)
• 1)假设两总体率相等(构成比相同)
– HO:1=2,即两总体阳性率相等 – H1:12,即两总体阳性率不等 – =0.05
– 2值的大小随着格子数的增加而变大, 即2分布与自由度有关。因而考虑2值 大小的意义时,要考虑到格子数。当 周边合计数固定的情况下,四个基本 数据当中只有一个可以自由取值,即 自由度为1。
• =(R-1)(C-1)
– R行C列时,R行中有一行数据受到列 合计的限制而不能自由变动,C列中亦 有一列数据在行合计的限制下不能自 由取值