17 第十三章 分类数据的假设检验
数据分析报告中的假设检验与结果解读方法
数据分析报告中的假设检验与结果解读方法在当今数字化的时代,数据成为了企业和组织决策的重要依据。
数据分析报告则是将数据转化为有价值信息的关键工具。
其中,假设检验与结果解读是数据分析报告中的核心环节,它们能够帮助我们从数据中得出可靠的结论,并为决策提供有力支持。
一、假设检验的基本概念假设检验是一种统计方法,用于根据样本数据来判断关于总体的某个假设是否成立。
简单来说,就是我们先提出一个关于总体的假设,然后通过收集样本数据来检验这个假设是否合理。
假设通常分为原假设(H₀)和备择假设(H₁)。
原假设是我们想要拒绝的假设,而备择假设则是我们希望证明的假设。
例如,我们假设某种新药物对治疗某种疾病没有效果(原假设),那么对应的备择假设就是这种新药物对治疗该疾病有效果。
二、假设检验的步骤1、提出假设首先,需要明确我们要研究的问题,并根据问题提出原假设和备择假设。
这一步非常关键,因为假设的合理性直接影响到后续的检验结果。
2、选择检验统计量根据数据的类型和研究的问题,选择合适的检验统计量。
常见的检验统计量包括 t 统计量、z 统计量等。
3、确定显著性水平显著性水平(α)是我们在进行假设检验时预先设定的一个阈值,用于判断是否拒绝原假设。
通常,我们将显著性水平设定为 005 或 001。
4、计算检验统计量的值根据样本数据,计算出所选检验统计量的值。
5、得出结论将计算得到的检验统计量的值与临界值进行比较。
如果检验统计量的值落在拒绝域内,我们就拒绝原假设,接受备择假设;否则,我们就不能拒绝原假设。
三、常见的假设检验方法1、单样本 t 检验用于检验单个样本的均值是否与某个已知的总体均值相等。
例如,一家公司声称其产品的平均使用寿命为 5000 小时。
为了验证这一说法,我们随机抽取了一定数量的产品进行测试,计算样本的平均使用寿命,并通过单样本 t 检验来判断该公司的声称是否可信。
2、独立样本 t 检验用于比较两个独立样本的均值是否有显著差异。
分类资料的假设检验课件
实例一:卡方检验的应用
01
02
03
04
卡方检验是一种常用的分类资 料假设检验方法,用于比较两 个或多个分类变量的关联性。
卡方检验的适用条件是样本量 足够大,且观察频数不能太小
。
卡方检验的结果通常以卡方统 计量、自由度和显著性水平来
表示。
卡方检验可以用于分析分类变 量之间的独立性、一致性和差
异性等。
实例二
Fisher's exact 检验是一种适用于小 样本或极端情况下的分类资料假设检 验方法。
Fisher's exact 检验的结果通常以P值 来表示,如果P值小于显著性水平, 则拒绝原假设。
Fisher's exact 检验适用于分析两个 分类变量的关联性,特别是当期望频 数小于5时。
Fisher's exact 检验在遗传学、流行 病学等领域应用广泛。
等级变量
对于等级变量,应选择适 合的秩和检验、方差分析 等方法。
连续变量
对于连续变量,应选择适 合的t检验、方差分析等方 法。
多因素分析的复杂性
交互作用
在多因素分析中,各因素之间可能存在交互作用,导致分析结果复杂化。
多元比较
多因素分析需要进行多元比较,增加了分析的复杂性。
05
分类资料假设检验的未 来发展与展望
与未发生组的比值。
风险比和优势比的检验在医学 、社会学等领域应用广泛,用 于评估疾病风险、治疗效应等 。
04
分类资料假设检验的注 意事项与挑战
样本量与检验效能
样本量
样本量的大小直接影响检验效能 ,样本量过小可能导致检验效能 不足,无法准确判断差异是否存 在。
检验效能
检验效能是指假设检验能够正确 判断差异存在的概率,检验效能 越高,判断正确的可能性越大。
《假设检验检验》课件
数据分析中的假设检验
什么是假设检验
假设检验是一种统计方法,用于通过样本数据来推断总体参数的性质。它可以帮助我们判断一个观察结 果是由偶然因素引起的,还是真实存在的差异。
假设检验的步骤
1
2. 选择检验统计量
2
选择适合问题的检验统计量,如t值、
z值等。
3
4. 计算统计量
4
利用样本数据计算检验统计量的值。
5
6. 得出结论
6
根据决策,得出关于总体参数的结论。
1. 建立假设
确定原始假设和备择假设,描述总体 参数的状态。
3. 设定显著性水平
选择显著性水平,决定拒绝原始假设 的界限。
5. 做出决策
根据检验统计量的值和显著性水平, 决定是否拒绝原始假设。
常用的假设检验方法
单样本t检验
结论的解释
根据结果的解释,得出关于总体参数的结论,并提供相应的推论。
实例演示及应用场景
通过具体的实例演示,展示假设检验在各个领域的应用,如医学、市场研究、环境保护等。
总结与展望
假设检验是数据分析中重要的工具之一,它可以帮助我们做出科学的决策, 并推动各个领域的发展。未来,我们可以进一步研究和改进假设检验方法, 提高其效能和适用性。
用于比较一个样本的平均值 与已知值或者另一个样本的 平均值。
独立样本t检验
用于比较两个独立样本的平 均值是否存在显著差异。
相关样本t检验
用于比较两个相关样本的平 均值是否存在显著差异。
如何解读假设检验结果
拒绝原始假设
如
接受原始假设
如果检验结果的p值大于等于显著性水平,我们接受原始假设。
分类资料的假设检验(ppt 41页)
H0:两种药物的总体有效率相等, π1=π2;
H1:两种药物的总体有效率不相 等,π1≠π2,
α=0.05。
16
计算理论频数
处理 试验药 对照药 合计
有效例数 无效例数 合计 有效率(%)
100( 91.6) 13 113
88.5
80
29 109
73.4
180
42
222
81.1
TRC
R×C表的卡方检验
理论数不能小于1; 理论数大于1小于5的格子数不超过总格子数的1/5。 增加样本含量;Fisher确切概率法;删去;合并
33
多个率或构成比的比较
多个率的比较 多个构成比的比较 行列表检验的注意事项
34
8.3多个率的比较
表8.5 三个剂量失眠药物治疗失眠有效率比较
bc 4 215
29
Fisher精确概率法(exact test)
表8.4 两种剂型妥布霉素治疗细菌性结膜炎结果比较
组别 即型凝胶
眼药水
合计
有效数 10(a) 9(c)
19(a+c)
无效数 4(b) 7(d)
11(b+d)
合计 14(a+b) 16(c+d)
30(n)
有效率(%) 71.43 56.25
处理 试验药 对照药 合计
有效例数 无效例数 合计 有效率(%)
100( a) 13(b) 113
88.5
80(c) 29(d) 109
73.4
180
想 Basic logic
一个正常的骰子,抛 出后得到六个面的概 率均为1/6。因此, 要判定一个骰子是否 合格,可以通过抛骰 子的方法来进行;
假设检验PPT课件
【学习目标】通过对本章的学习,掌握假设检验的概念和 类型、假设检验的两类错误和假设检验的一般步骤;重点掌握 单个总体均值的检验和比率的检验。
第一节 假设检验的基本问题 第二节 △ 假设检验的应用
假设检验
第一节 假设检验的基本问题
一、假设检验的概念 二、假设检验的两类错误 三、假设检验的类型 四、假设检验的类型一般步骤
假设检验
第一节 假设检验的基本问题
什么小概率?
1.在一次试验中,一个几乎不可能发生的事件发生的概率; 2.在一次试验中小概率事件一旦发生,我们就有理由拒绝原假 设; 3.小概率由研究者事先确定。
假设检验
第一节 假设检验的基本问题
二、假设检验的两类错误(决策风险)
(一) 第一类错误 第一类错误,亦称拒真(弃真)错误。是指当原假设为 真时,但由于样本的随机性使样本统计量的具体值落入 了拒绝区域,这时所作的判断是拒绝原假设。 犯第一类错误的概率亦称拒真概率,它实质上就是前面
t
986 1000 24
2.333>
t n 1 2.1315
16
2
所以接受 H1,即这天包装机工作不正常。
假设检验
第二节 假设检验的应用
二、单个总体比率(成数)的假设检验
比率P是平均数的一种特殊形式,因而前面讲的平均 数检验理论都适用于总体比率P的假设检验,只是估计量 的形式略有不同。
【例4】我国出口的参茸药酒畅销于某国市场。据以往调查, 购买此种酒的顾客中40岁以上的男子占50%。经营该药酒 的进出口公司经理关心这个比率是否发生了变化,于是, 委托一个咨询机构进行调查,这个咨询机构从众多购买该 药酒的顾客中随机抽取了400名进行调查,结果有210名为 40岁以上的男子。试问在0.05的显著水平上,能否认为购 买此种药酒的顾客中40岁以上男子所占比率变化了?
假设检验《统计学原理》课件
X=X1>X0
H0为伪
从上图可以看出,如果临界值沿水平方向右移,α将变小而β变大,即若减小 α错误,就会增大犯β错误的机会;如果临界值沿水平方向左移,α将变大而 β变小,即若减小β错误,也会增大犯α错误的机会,
a 错误和 错误的关系
在样本容量n一定的情况下,假设检验不能同时做到犯α和 β两类错误的概率都很小,若减小α错误,就会增大犯β错误 的机会;若减小β错误,也会增大犯α错误的机会,要使α和 β同时变小只有增大样本容量,但样本容量增加要受人力、 经费、时间等很多因素的限制,无限制增加样本容量就会 使抽样调查失去意义,因此假设检验需要慎重考虑对两类 错误进行控制的问题,
参数假设检验举例
例2:某公司进口一批钢筋,根据要求,钢筋的 平均拉力强度不能低于2000克,而供货商强 调其产品的平均拉力强度已达到了这一要 求,这时需要进口商对供货商的说法是否真 实作出判断,进口商可以先假设该批钢筋的 平均拉力强度不低于2000克,然后用样本的 平均拉力强度来检验假设是否正确,这也是 一个关于总体均值的假设检验问题,
假设检验的两类错误
正确决策和犯错误的概率可以归纳为下表:
假设检验中各种可能结果的概率
H0 为真
接受H0
1-α 正确决策
拒绝H0,接受H1
α 弃真错误
H0 为伪
β 取伪错误
1-β 正确决策
•假设检验两类错误关系的图示
以单侧上限检验为例,设H0 :X≤X0 , H1:X>X0
图a X≤X0 H0为真
a
H0值
样本统计量 临界值
观察到 的样本 统计量
5、假设检验的两类错误
根据假设检验做出判断无非下述四种情况:
1、原假设真实, 并接受原假设,判断正确; 2、原假设不真实,且拒绝原假设,判断正确; 3、原假设真实, 但拒绝原假设,判断错误; 4、原假设不真实,却接受原假设,判断错误, 假设检验是依据样本提供的信息进行判断,有犯错误的可 能,所犯错误有两种类型: 第一类错误是原假设H0为真时,检验结果把它当成不真而 拒绝了,犯这种错误的概率用α表示,也称作α错误 αerror 或弃真错误, 第二类错误是原假设H0不为真时,检验结果把它当成真而 接受了,犯这种错误的概率用β表示,也称作β错误 βerror 或取伪错误,
统计学假设检验概念和方法
临界值
H0值
计算出旳样本统计量
样本统计量
右侧检验旳P 值
抽样分布
置信水平
拒绝域
1 -
P值
H0值
临界值 计算出旳样本统计量
利用 P 值进行检验
(决策准则)
1. 单侧检验
– 若p-值 ,不拒绝 H0 – 若p-值 < , 拒绝 H0
2. 双侧检验
– 若p-值 /2, 不拒绝 H0 – 若p-值 < /2, 拒绝 H0
零假设总是一种与总体参数有关旳问题,所以 总是用希腊字母表达。有关样本统计量如样本 均值或样本均值之差旳零假设是没有意义旳, 因为样本统计量是已知旳,当然能说出它们等 于几或是否相等
提出原假设和备择假设
什么是备择假设?(alternative hypothesis) 1. 与原假设对立旳假设,也称“研究假设” 2. 研究者想搜集证据予以支持旳假设总是有不
(单尾和双尾)
是
z 检验
Z X 0 n
总体均值旳检验
(检验统计量)
总体 是否已知 ?
大
z 检验
Z X 0
Sn
否
样本容量 n
小
用样本标 准差S替代
检验
t X 0 Sn
总体均值旳检验
(2 已知或2未知大样本)
1. 假定条件
– 总体服从正态分布 – 若不服从正态分布, 可用正态分布来近似
– 右侧检验时,P-值为曲线上方不小于等于
检验统计量部分旳面积
3. 被称为观察到旳(或实测旳)明显性水平
– H0 能被拒绝旳 旳最小值
双侧检验旳P 值
/ 2 拒绝
1/2 P 值
/ 2 拒绝
1/2 P 值
分类变量的假设检验
例8
例8
Z值及P值
(四)等级资料的比较
(数学公式请参见有关SPSS说明书) 2.双向有序等级资料的比较
Spearman等级相关是基于秩次的非参数相关分析。 目的:用非参数的方法检验两个变量的相关性。
主要适用于以下情况:
1.对于数值型变量,X及Y严重偏离正态分布; 2.等级资料的相关分析。
例9 492例患者硅沉着病的不同期次与肺门密度级别资料如下, 试检验两者有无相关(见数据文件P166.sav)。
Crosstabs菜单
交叉表
Crosstabs对话框
行
列
Statistics对话框
卡方检验
Cell对话框
行百分比
治愈率
Pearson卡 方检验
P值
0格理论数小于5,最小理论数为23.97。
数据文件p229.sav (基于整理后的四格表数据)
变量说明:group:组别,1=旧剂型,2=新剂型;effect: 疗效,1=治愈,2=未愈;freq:频数 。
例5 方法二 (SPSS菜单:Nonparametric Tests)推荐
b+c >25,则给 出2检验及P值
(三)完全随机设计的多个样本比较
假设检验的目的 推断多个总体率是否相等 例6 某省从3个水中氟含量不同的地区随机抽取10~12 岁儿童,进行第一恒齿患病率的调查,问3个地区儿童 第一恒齿患病率是否不同?
SPSS软件操作过程
例1 某中药在改变剂型前曾在临床观察152例,治愈129例, 未治愈23例。改变剂型后又在临床观察130例,治愈101 例,未治愈29例(见数据文件P229_1.sav)。能否得出 新剂型疗效与旧剂型不同的结论?
数据文件p229_1.sav (基于原始数据) 变量说明:group:组别,1=旧剂型,2=新剂型;effect: 疗效,1=治愈,2=未愈。
假设检验完整版PPT课件
消费者协会接到消费者投诉,指控品牌纸包装 饮料存在容量不足,有欺骗消费者之嫌。包装 上标明的容量为250毫升。消费者协会从市场上 随机抽取50盒该品牌纸包装饮品进行假设检验。 试陈述此假设检验中的原假设和备择假设。
解:消费者协会的意图是倾向于证实饮料厂包装 饮料小于250ml 。建立的原假设和备择假设为
显著性水平和拒绝域
(右侧检验 )
抽样分布
置信水平
1-
拒绝H0
0 观察到的样本统计量
样本统计量 临界值
显著性水平和拒绝域
(右侧检验 )
抽样分布
置信水平
1-
拒绝H0
0
样本统计量
临界值
第一节 假设检验概述
1、假设检验的基本思想 2、假设检验的步骤 3、两类错误和假设检验的规则
三、两类错误和假设检验的规则
(单侧检验 )
抽样分布
置信水平
拒绝H0
1-
拒绝域 临界值
0 接受域
样本统计量
显著性水平和拒绝域
(左侧检验 )
抽样分布
置信水平
拒绝H0
1-
临界值
0
样本统计量
观察到的样本统计量
显著性水平和拒绝域
(左侧检验 )
抽样分布
置信水平
拒绝H0
1-
临界值
0
观察到的样本统计量
样本统计量
•【例2】一种罐装饮料采用自动生产线生产,每罐的容量 是255ml,标准差为5ml,服从正态分布。换了一批工人后, 质检人员在某天生产的饮料中随机抽取了16罐进行检验,
一个总体的检验
一个总体
《生物统计》教学课件:13 分类资料的假设检验
6
P{X 4}
C
k n
P
k
(1
P)nk
k 4
C
4 6
0.540.52
C
5 6
0.550.51
C
6 6
0.560.50
0.2344 0.0938 0.0156 0.3438,
0.05时, P ,差异不显著,不能认为该技术有效
例 有人在孵化的鸡蛋内注入雌性激素,以期达 到性别控制的目的,孵出20只小鸡中公母的比例 为 6∶14,问这一措施能否提高雌性比例? 解:H 0 :无效,孵出的小鸡中雌性比例仍为0.5 , H A :有效,孵出的小鸡中雌性比例大于0.5 。
解:H 0 :无效,孵出的小鸡中雌性比例仍为0.5 , H A : 有效,孵出的小鸡中雌性比例大于0.5 。
40
P{X 28}
C
k 40
0.5k
0.5nk
?,
k 28
P{X 28} P{Z 28 0.5 40 0.5} 40 0.5 0.5
P{Z 2.3717} 0.0089, 0.01时,
( 2 ) 检验统计量: 若出现的次数为X ,样本容量为n ,则
当原假设成立时, X ~B[ nP , nP(1 P)]
( 3) 统计推断: 若显著性水平为 , X 的观测值为 x, 则
①当 P{X
x}
2
或 P{X
x}
2
时
,
否定H
0
;
x
②当P{X x}
C
k n
P
k
(1
P)
n
k
时,否定H0 ;
三个鸡场某年雏鸡死亡率
雏鸡数ni 死亡数xi
分类资料的假设检验PPT课件( 41页)
10
基本思想
如果H0成立,两组应有相同的率,从频数的角度 两组病人就相应有四个理论频数。 A 表示实际观察到的生存数和死亡数 T 表示即理论生存数和死亡数
A11 A12 100 13
处理 试验药 对照药 合计
有效例数 无效例数 合计 有效率(%)
100( a) 13(b) 113
88.5
80(c) 29(d) 109
73.4
180
42
222
81.1
6
基本思想 Basic logic
一个正常的骰子,抛 出后得到六个面的概 率均为1/6。因此, 要判定一个骰子是否 合格,可以通过抛骰 子的方法来进行;
四格表专用公式
n>40且T>5
2
(ad b)c2n
(ab)c(d)a (c)b (d)
n>40, 1<T<5
A21 A22 80 29
T11
T12
91.6 21.4
T21
T22
88.4 20.6
11
构造反映抽样误差大小的差异统计量
如果H0成立,A和T的差别不应太大,
且有一定的分布规律。通过对差别 大 小的判断,可得到两总体率是否相等 的结论。
2 (AT)2
T
12
关于卡方分布
与自由度有关的连续性偏态分布。 k个相互独立的标准正态变量u的平方和称
一种对理论频数和实际频数吻合程 度的考察。
A investigation of the degree of agreement of theoretical(T) frequency and actual(A) frequency
17 第十三章 分类数据的假设检验
新措施
存活 18
36 54
合计 150
150 300
治愈率 88%
76% 82/%
10
132
114 246
传统措施
合计
独立性检验
列联表(contingency table)
处理 1 2 r 合计 1 n11 n21 nr1 C1 类别 2 n12 n22 nr2 C2 k n1k n2k nrk Ck 合计 R1 R2 Rr G
2
或
(| b c | 1) 2 2 c bc
22
对分布类型的检验
对总体是否服从某种分布进行检验 检验统计量
k (O E ) 2 i 2 i Ei i 1 近似 2 ~ (k c 1 )
c:用样本资料估计的总体参数的个数
23
分布的假设检验
二项分布的假设检验
检验在不同处理中不同类别的频率分布是否相同 不同类别的分布与处理无关(独立)
11
独立性检验
卡方检验
H0:不同类别的分布与处理无关 HA:不同类别的分布与处理有关 检验统计量
2
r k (Oij Eij ) 2
近似
i 1 j 1
Eij
~
2[(r 1) k 1)] (
X ~ P()
27
分布的假设检验
例:现有在不同显微镜视野内观察到的酵母菌数资料 如下,试利用该资料检验视野内的酵母菌数是否服从 泊松分布。 视野内的酵母菌数(X ) 视野频数(f )
i i
ˆ X fi X i fi 720 1.8 400
H0: X ~ P(1.8)
0 1 2 3 4 5 6 7 8 9 合计
分类资料的假设检验
– 如:动物的性别比例是1:1
2检验的原理
• 某羊场一年所产的876只羔羊,公羔428只, 母羔448只
性别 公 母 合计
实际观察频数 428 448 876
理论频数 438 438 876
– 实际观察次数与理论次数存在一定差异
– 这个差异是属于抽样误差(把对羊场一年所生羔羊的性别统计当作 一次抽样调查)?
• 2个独立样本进行率的比较 • 2个配对样本进行率的比较
2个独立样本进行率的比较
• 样本 含量
•1
n1
•2
n2
• 检验假设
出现次数 x1 x2
样本率 p1 p2
总体率 P1 P2
双侧检验:H0:P1=P2 : H A:P1 P2 左侧检验:H0:P1=P2 : H A:P1 P2 右侧检验:H0:P1=P2 : H A:P1 P2
• 当样本含量足够大,p近似于正态分布,其 期望和方差为:
E(p)=P
Var(p)=
2 p
P(1 n
P)
P(u
pP
p
u ) 1
其中u 是给定两尾概率时,标准正态分布的分位数
1.2 率的区间估计
由于总体P未知,用Sp =
p(1-p) n
代替
p
• 若取置信水平1-α=0.95,则估计出的总体
概率P的置信区间 P 1.96SP
– 还是羔羊性别比例发生了实质性的变化?
2检验的原理
• 要回答这个问题:
– 首先需要确定一个统计量用以表示实际观察次 数与理论次数偏离的程度
– 然后判断这一偏离程度是否属于抽样误差,即 进行显著性检验
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
13
独立性检验
检验统计量
2
2
2
(Oij
i1 j 1
Eij )2 Eij
7.3334
或
c2
2
2
(| Oij
i1 j 1
Eij | 0.5)2 Eij
6.5266
02.05(1) 3.841 02.01(1) 6.64
新措施可显著提高仔猪白痢的治愈率 14
0.14253
P(2)
P(7)
9! 9!11! 7! 18!8!1! 3! 6!
0.02376
9! 9!11! 7! P(4) P57) 18! 6! 3! 5! 4!
0.33258
18
独立性检验
0.35 0.3
0.25 0.2
概率 0.15 0.1 0.05 0 01234567 用A药的未痊愈数
P1: 红花 P2: 白花
F1: 红花
F2: 红花 705 白花 224 (3.15 : 1)
问F2中红花和白花植株出现的比例是否 符合3:1的理论比例。
7
适合性检验
H0: 观察的频率分布与理论频率分布相符 HA: 观察的频率分布与理论频率分布不符
检验统计量
2
k
(Oi
i 1
Ei )2 Ei
近似
~ (2 k 1)
否定域: 2 2 (k 1)
=显著性水平
查附表4
8
适合性检验
例1
F2中红花和白花的理论频数分别为 696.75 (=929*3/4)
和 232.25 (=929-696.75)
2 (705 696 .75)2 (224 232 .25)2 0.3907
696 .75
232 .25
或
c2
(|
705
696 .75 | 696 .75
0.5)2
(|
224
232 .25 | 232 .25
0.5)2
0.3448
02.05(1) 3.841
F2中红花和白花的频数分布符合3:1
9
独立性检验
检验分类资料的分布在两个或多个群体(处 理)中是否相同 例2 为检验某种新措施对仔猪白痢的治疗效 果是否优于传统措施,试验后得到以下数据
17
独立性检验
2)计算在原假设(两种药物的治愈率相同)成立的条 件下每种排列出现的概率
P R1! R2!C1!C2! G! n11! n12! n21! n22!
P(1)
P(8)
9! 9!11! 7! 18! 9! 0! 2! 7!
0.00113
P(3)
P(6)
9! 9!11! 7! 18! 7! 2! 4! 5!
3
2 分布
与2 分布有关的表格
1. 附表3:2 分布上 侧分位数表
P(X 2 )
4
卡方检验
用于分类资料的概率分布的假设检验 检验统计量
2
(Oi
Ei Ei
)2
近似
~ 卡方分布
Oi :第 i 类别中的观察频数 Ei :第 i 类别中的理论频数(基于原假设计算) : 对所有类别求和
独立性检验
22列联表2统计量的简化计算
2 ( O11O22 O12O21 G / 2)2 G
R1R2C1C2 02.05(1) 3.841 02.01(1) 6.64
15
独立性检验
22列联表的Fisher精确检验
可用于小样本(理论频数小于5)的情形
例3:用A和B两种药物各治疗9个病人,结果如下 痊愈 未愈 合计
Eij G P(RiC j ) G P(Ri )P(C j )
G Ri C j RiC j
GG G
12
独立性检验
例2
理论频数
E11
R1C1 G
150 246 300
123
E12 R1 E11 150 123 27
E21 C1 E11 246 123 123 E22 R2 E21 150 123 27
合计 C1 C2 Ck
合计
R1 R2 Rr G
检验在不同处理中不同类别的频率分布是否相同
不同类别的分布与处理无关(独立)
11
独立性检验
卡方检验
H0:不同类别的分布与处理无关 HA:不同类别的分布与处理有关
检验统计量
2
r
k
(Oij
i1 j 1
Eij Eij
)2
近似
~ 2[(r 1() k 1)]
A药 B药 合计
8
19
3
69
11 7 18
问两种药物的疗效有无显著差别
16
独立性检验
检验步骤
1)在保持边际和不变时,列出2*2列联表的所有可 能排列
90 27 (1)
81 36 (2)
72 45 (3)
63 54 (4)
54 45 36 27 63 72 81 90
(5) (6) (7) (8)
第十三章 分类资料的假设检验
卡方(2)检验
卡方分布 适合性检验 独立性检验 分布的假设检验
2 (chi-square)分布
定义
设随机变量X1, X2, , Xn彼此独立且都服从标准正 态分布 N(0, 1),则随机变量
Y
X
2 i
服从自由度为n的2分布,记为
Y ~ 2(n)
5
卡方检验
注意事项
卡方检验只是近似检验 样本不能太小,每个类别中的理论频数不能小于5 当卡方分布的自由度等于1时,最好对2统计量进
行连续性校正(尤其是在样本较小的情况下)
c2
(| Oi
Ei | Ei
0.5)2
6
适合性检验
检验不同类别出现的比例是否符合某个理论比 例
例1:Mendel在其豌豆杂交试验中得到以下结果:
死亡 存活 合计 治愈率
新措施 132
传统措施 114
合计
246
18 150 36 150 54 300
88% 76% 82/%
10
独立性检验
列联表(contingency table)
处理
类别
1 2k
1
n11 n12 n1k
2
n21 n22 n2k
r
nr1 nr2 nrk
2
2 分布
性质
2 分布随机变量的取值范围为(0,) 若Y1 ~ 2 (n),Y2 ~ 2 (m),且相互独立,则
• Y1 ± Y2 ~ 2 (n ± m) 2 分布为非对称分布,其分布曲线的形状由自由度
决定,自由度越大,分布越趋于对称(见教材 p.70, 图6.4) 当 n , 2 (n) N(n, 2n)