第六章分类资料的统计推断
统计学第六章抽样推断
尖山一委…
尖山二委
居民一组
居民二
组
…
第六章 抽样推断
某外国公司在##进行 微波炉市场调查:
STAT
在商场的大门口
在微波炉柜台前
在市区街道旁边
在某个住宅小区
时间表抽样框
第六章 抽样推断
连续出产的产品总体 可以编制抽样框:均STAT 匀的出产时间、可以 预见到的产品总量.
连续到加油站加油的 汽车总体无法编制抽 样框:时间不定、总 量也无法确定.
抽样估计的特点
第六章 抽样推断
按随机原则抽取样本单位
目的是推断总体的数量特征
抽样推断的结果具有一定的可靠程度, 抽样误差可以事先计算并控制
抽样估计的应用
第六章 抽样推断
不可能进行全面调查时 不必要进行全面调查时 来不及进行全面调查时 对全面调查资料进行补充修正时
抽样调查研究
Sampling Study
P N nN N NN n
共n个
⒉ 不重复抽样的可能样本数目:
C N n N N 1 N n 1
第六章 抽样推断
第六章 抽样推断
STAT
★§1.1 抽样方案的设计 ★§1.2 简单随机抽样的抽样误差的测定
§1.3 简单随机抽样的抽样估计
第六章 抽样推断
§1.2 简单随机抽样的抽样误差的测定 STAT
n1 1{i n1E(xiX)2nn(E xX)2} 由E(于 xX)2D (x)D (i1 nxi)n 1 2i n1D (xi)n2
E(sn21)n11{n2nn2}
2
⒋ 样本成数:
pn1,qn0 1p nn
⒌ 样本单位是非标志的标准差:
第六章 抽样推断
《医学统计学》教学大纲(医学检验)
《医学统计学》课程教学大纲(Medical Statistics)一、课程基本信息课程编号:14232080课程类别:专业必修课适用专业:医学检验技术学分:理论教学学分:2学分,实验学分:0.5学分总学时:40学时(其中讲授学时:24学时;实验(上机)学时:16学时)先修课程:医学基础课程后续课程:医学检验、预防医学选用教材:李康主编:医学统计学(第6版)[M].北京:人民卫生出版社,2013必读书目:[1]方积乾主编.医学统计学(第7版)[M].北京:人民卫生出版社,2013[2]袁兆康.医学统计学[M].北京:人民军医出版社.2013[3]张文彤主编.SPSS统计分析基础教程(第2版)[M].北京:高等教育出版社,2011选读书目:[1] 颜虹, 医学统计学[M]. 北京:人民卫生出版社,2005[2] 康晓平,实用卫生统计学 [M].北京:北京大学医学出版社,2002[3] Belinda Barton,Medical Statistics: A Guide to SPSS, Data Analysis and Critical Appraisal [M].美国:WILEY Blackwell,2014二、课程教学目标通过本门课程的学习,要使学生学会人群健康研究的统计学方法,学会数值变量和分类变量资料的分析,配对资料的分析,直线相关和直线回归,非参数统计方法,病例随访资料分析。
其目的使大家具备新的推理思维,结合专业问题合理设计试验,科学获取资料,提高科研素质。
本课程教学的主要方法有理论讲授、课堂讨论、实验实习、课堂演算、统计软件SPSS上机等。
通过实验实习,使学生加深对理论的理解。
三、课程教学内容与教学要求1.绪论教学要求:掌握:同质与变异,总体、个体和样本,变量的分类,统计量与参数,抽样误差,频率与概率等基本概念。
理解:统计工作的基本步骤,医学统计学的主要内容。
了解:学习统计学的目的和要求。
《国民经济统计学概论》_第六章_抽样推断
总体分组: 2 (X X )2 F F
总体成数的方差为 P(1 - P)
2.统计量,又称样本指标,反映样本特 征的统计指标
(1)样本平均数( x ),样本各 单位数量标志值的平均数
未分组: x x
n
分组: x xf f
(2)样本成数(p) 是指样本中具有某一相同标志表现的单
要有四个:
(1)总体平均数( X )
总体各单位数量标志值的平均数
X
总体未分组情况下:X N
总体分组情况下:
XF
X
F
(2)总体成数(P)
是指总体中具有某一相同标志表现的单 位数占全部总体单位数的比重
多为交替指标
总体中具有相同标志表现的单位数用N1 表示
P N1 N
(3)总体方差和标准差 总体方差(σ2)
特点: 1.抽样方式组织简便,便于实施 2.在已知总体某些有关信息的情况下,
采用等距抽样能保证样本单位在总体中 均匀的分布,从而提高了样本对总体的 代表性,有利于降低抽样误差。
无关标志排队 有关标志排队
(三)类型抽样 首先把总体按某一标志分成若干个类型
组,使各组组内标志值比较接近,然后 分别在各组内按随机原则抽取样本单位。 特点:在于把分组法和随机抽样原则结 合起来。
i2ni
n
抽样成数的平均误差:
重置抽样:
p
P(1 P) n
不重置抽样:
第四节 抽样的组织形式及抽样方 案设计
一、抽样的组织形式 (一)简单随机抽样 从总体全部单位中直接按随机原则抽取
样本单位,使每个总体单位都有同等机 会被抽中
最基本形式
(1)直接抽选法 直接从调查对象中随机抽选。
方差分析I单向分类资料
合计 平均
X1. X1. X 2. X 2. X i. X i.
Xk. Xk. X .. X
平方和与自由度旳计算
k ni
总平方和:SST
i1 j1
X ij X
2
k i 1
ni j 1
X ij 2
X
2 ..
N
校正项(correction
factor):CF
X
2 ..
N
k
组间平方和 : SSA=
8
II 10.8 11.6 12.3 12.7 13.5 13.5 14.8
7
III 9.3 10.3 11.1 11.7 11.7 12.0 12.3 12.4 13.6 9
IV 9.5 10.3 10.5 10.5 10.5 10.9 11.0 11.5
8
32
–零假设:1= 2= 3= 4
sum 119.80
单向分类资料旳数据构造
组别 • 观察值
A1 A2
X 11 X 12 X X 21 X 22 X
1 2
j j
X X
1n1 2 n2
Ai X i1 X i2 X ij X ini
Ak X i.XXik总1jn i1X总和n1Xik平2:ijj ni1均XX ..:=ijXXikkj1= XN1i.XXkn.k.
组间(处理) 85.8563
3
28.6188 16.855
Treatment
**
组内(误差) 47.5408
28
1.6979
error
总变异
133.3972 31
total F F (3,28) 否定H0 ,
F0.01(3,28) 4.57
两分类资料的统计描述与推断
频数分布表包括两列,一列表示类别, 另一列表示该类别出现的频数。通过 频数分布表,可以直观地了解各类别 的数量分布情况,为后续的统计分析 提供基础数据。
比例与百分比
总结词
比例和百分比是用来描述两分类资料中各类别的相对大小。
详细描述
比例是各类别的数量与总数量的比值,而百分比则是比例乘以100。通过比例和 百分比,可以了解各类别的相对大小,进一步分析各类别的权重和影响。
详细描述
在两分类资料中,中位数通常用于描述某一类别的中间状态或中心趋势。例如,在一组 关于消费者年龄的数据中,中位数可以表示消费者的平均年龄或年龄分布的中心趋势。
算术平均数
总结词
算术平均数是所有数值的和除以数值的 个数。
VS
详细描述
在两分类资料中,算术平均数可以用于描 述某一类别的平均水平或中心趋势。例如 ,在一组关于消费者购买力的数据中,算 术平均数可以表示消费者的平均购买力水 平。
概率与概率分布
概率
描述随机事件发生的可能性大小。
概率分布
描述随机变量取值可能性的分布情况。
随机抽样与抽样分布
随机抽样
从总体中按照随机原则抽取一部分观察单位进行研究 。
抽样分布
由样本数据推导出的统计量值的分布。
统计量与参数
统计量
基于样本数据计算出的量值,用于描 述样本数据的特征。
参数
描述总体特性的量值,通常通过总体 数据计算得出。
03
CHAPTER
两分类资料的离散程度描述
异众比率
异众比率
异众比率是用于描述分类数据中非众数频数 的相对重要性。其计算公式为异众比率=非 众数频数/总频数。异众比率越大,说明非 众数频数所占比重越大,数据的离散程度越 大。
经济应用统计学-第六章抽样推断
非参数检验优缺点总结
• 易于理解和实现:非参数检验方法通常基于直观和易于理解的思想,计算和实现相对简单。
非参数检验优缺点总结
检验效能较低
与参数检验方法相比,非参数检 验方法的检验效能通常较低,即 当原假设为真时,非参数检验方 法更容易犯第二类错误(接受原 假设)。
对数据信息的利用不 充分
非参数检验方法通常只利用数据 的部分信息(如排序信息),而 忽略了数据的其他有用信息(如 数值大小),因此可能无法充分 利用数据信息。
两配对样本非参数检验
包括Wilcoxon 符号秩次检验、McNemar 检验 等方法,用于比较同一总体内两个配对样本的差 异是否显著。
两独立样本非参数检验
包括Mann-Whitney U 检验、Kruskal-Wallis H 检验等方法,用于比较两个独立样本所来自的 总体的分布位置或分布形状是否存在差异。
考虑样本量大小
在选择置信水平时,应充分考虑样本量的大小。当样本量较小时,应选择较低的置信水平以避免过大的估计误差;当 样本量较大时,可以选择较高的置信水平以获得更精确的估计结果。
参考相关文献或行业标准
在选择置信水平时,可以参考相关领域的文献或行业标准,了解通常采用的置信水平及其依据。这有助 于确保研究结果的可比性和可靠性。
04
假设检验原理与步骤
假设检验基本概念阐述
原假设与备择假设
原假设通常是研究者想要推翻的 假设,而备择假设则是研究者希 望证实的假设。
检验统计量与拒绝域
检验统计量是根据样本数据计算出 的用于检验原假设的统计量,而拒 绝域则是根据显著性水平和检验统 计量的分布确定的,当检验统计量 落入拒绝域时,我们拒绝原假设。
单侧检验
当研究者对备择假设的方向有明确预期时,即备择假设只可能大于或小于原假设时,应选择单侧检验 。例如,在比较两种药物疗效的研究中,如果研究者预期新药疗效优于旧药,则应选择单侧检验。
分类资料的推断与x2检验统计学课件
3
联系
两者都是用于检验变量之间关系的统计方法,但 所针对的变量类型不同,一个是连续变量,一个 是分类变量。
X2检验与回归分析的比较
回归分析
主要用于研究一个或多个自 变量对因变量的影响,并估 计自变量对因变量的预测值
。
X2检验
主要用于检验分类变量之间 的关系,不涉及预测值的估
分类资料的常见类型
总结词
分类资料的常见类型包括计数资料、等级资料和属性 资料等。
详细描述
计数资料是指对某一事件或现象发生的次数进行计数的 数据类型,例如某地区的人口数量、某时间段内交通事 故发生的次数等。等级资料是指将观察对象按照某种属 性或特征进行等级划分的数据类型,例如按照病情严重 程度将病人分为轻症、中症和重症等。属性资料是指对 个体或单位按照某种属性或特征进行分类的数据类型, 例如性别、婚姻状况、血型等。
数据整理
对数据进行整理,确保数据符合X2检验的要 求。
实际案例分析:拟合优度检验
建立期望频数
根据理论分布,建立期望频数。
计算实际频数和期望频数
统计实际频数和期望频数,并计算X2值。
判断显著性
根据X2值和自由度,判断显著性水平。
结论推断
根据显著性水平,得出结论并解释结果。
04
X2检验的优缺点与注意事 项
贝叶斯推断
贝叶斯推断是一种基于概率的统计方法,它能够将先验信息与样本数据相结合,进行更准确的推断。近年来,贝叶斯 方法在分类资料推断中得到了广泛应用,如贝叶斯分类器、高斯过程回归等。
集成学习方法
集成学习是一种通过结合多个学习器来提高预测性能的方法。在分类资料推断中,集成学习方法如 bagging、boosting等被广泛应用于提高模型的稳定性和预测精度。
第六章统计推断 2
p p1 p
22
2013-8-18
第五章 抽样推断
2.2 点估计
样本方差
符号 公式
2 x
S 2 x
2
x x
n
x x
n1
2
反映样本的 作用 离散程度
2013-8-18 第五章 抽样推断
推断总体
23
2.2 点估计
总体参数的点估计:
缺点: 优点: 原则:总体参数估计值就取统
1. 精确性—适当的极限误差范围;
2. 可靠性—估计结果正确的概率。
参数估计—点估计和区间估计。
2013-8-18 第五章 抽样推断 16
2.2 点估计
点估计就是根据总体参数与样本统计 量之间的内在联系,直接以样本统计量 作为相应总体参数的估计值,点估计又 称为定值估计。 常用的点估计量有:
ˆ Xx
1.4 统计推断的误差
2. 抽样平均(标准)误差:
抽样平均误差是抽样平均数的标准差,
它反映样本平数(样本成数)与总体
平均数(总体成数)之间的平均差异程
度。
x
2013-8-18
X
n
p
P 1 P n
10
第五章 抽样推断
1.4 统计推断的误差
总体标准差σ(X)和成数P的确定:
t
x X x X ~ t 2 n 1 分 布 Sx n
t
2013-8-18
X : x ,x
第五章 抽样推断
40
2.3 区间估计
【例 5-4】 从某校学生中随机 抽取25人,调查到他们平均每天
参加体育锻炼的时间为25分钟,
医学统计学分类变量资料的统计推断
率的标准误的意义
▪ 率的标准误小,说明抽样误差较小,表示 样本率与总体率越接近;
▪ 率的标准误大,说明抽样误差较大,表示 样本率与总体率相距较远。
▪ 有研究者在某地采用随机整群抽样法获得 642名青少年,调查其留守情况,得出留守 率为16.98%,求其留守率的标准误。
▪ 已知n=642,p=0.1698,则
单侧α= 0.05
本例,n=304,p=0.316,π0=0.2,则有
u=5.06>1.645,p<0.05,则拒绝H0,接受H1,老年 胃溃疡患者出血率高于一般胃溃疡患者。
案例
▪ 某地调查了50岁以上吸烟者200人中患慢 性支气管炎者41人,患病率为20.5%;不 吸烟者162人中患慢性支气管炎者15人, 患病率为9.3%。
案例
▪ 2003年,某学校欲了解大学生乙肝表面抗原 携带情况以评价防控措施,随机抽取1000名 大学生,做乙肝表面抗原检查,查得乙肝表 面抗原阳性者52人,乙肝表面抗原阳性率为 5.2%,欲用此率推断该校大学生乙肝表面抗 原总体阳性率。
例
▪ 某校大学生乙肝表面抗原总体阳性率的 95%的可信区间:
分类变量资料的 统计推断
二项分布
▪ 考虑一系列彼此独立的随机试验,每次试 验只有两个可能发生的结果,且每种结果 发生的可能性是一定的,即发生和不发生 的概率分别是:和1- ,那么这n次试验 中发生或者不发生的次数服从二项分布。 (没有“排列”的意义,而体现了“组合” 的意义)
只有两个可能发生的结果
▪ 问题
➢ 据以上资料能否下结论说吸烟者慢性支气管炎 患病率高于不吸烟者?
➢ 用什么方法对两个率进行比较?
吸烟组和不吸烟组慢性支气管炎患病率比较
医学统计学-分类变量资料的统计推断
分组
发病人数 未发病人数 合 计 发病率%
服药组
40(a) 190(b) 230(a+b) 17.39
对照组
50(c) 130(d) 180(c+d) 27.78
合计
90(a+c) 320(b+d) 410(n)
21.95
2
a
ad bc2 n bc d a cb
d
1
四格表资料的χ2检验(校正χ2值的计算)
分类变量资料的 统计推断
第一节 率的抽样误差和总体率的估计 第二节 率的u检验 第三节 χ2检验
统计推断:
用样本信息推论总体特征的过程。 包括:
参数估计:运用统计学原理,用从样本计算出来的统
计指标量,对总体统计指标量进行估计。
假设检验:又称显著性检验,是指由样本间存在的差
别对样本所代表的总体间是否存在着差别做出判断。
=1时,P=0.05,x2 =3.84 P=0.01,x2 =6.63
P=0.05时,=1,x2 =3.84 =2,x2 =5.99
当自由度取1时,u2= x2
例1:某院欲比较异梨醇口服液(试验组)和氢氯噻嗪+地塞米松 (对照组)降低颅内压的疗效。将200例颅内压增高症患者随机分 为两组,结果见表7-1。问两组降低颅内压的总体有效率有无差别?
情况。
第二节 率的u检验
率的u检验的应用条件: 1. 已知π0 2. nP>5, n(1-P)>5
(当样本含量足够大、样本率p和1-p均不接近 于零的前提下,且np和n(1-p)均大于5时,样本 率的分布近似于正态分布,样本率和总体率、 两个样本率之间差异来源的判断可用u检验。)
一、样本率与总体率的比较
生物统计学第6章
ANOVA基本步骤
生物统计
Chap.6 Analysis of Variance I
• 零假设:处理无效( 1= 2= 3= 4) • 备择假设:处理有效(至少两个均数不等)
• 基本计算(1): X i. X i.
X .. X
• 基本计算(2): SST SSE SSA dfT dfA dfE
组内变异: 由于同组内的个体来自同一总体(接受同
一处里),因此组内变异仅仅是由于个体之间的 随机误差造成。 组间变异:
不同组个体间的变异,除了个体之间的随机 误差以外,还包括不用处理(不同的组来自不用 总体)所造成的差异。
方差分析法的基本思想:
组间变异 组内变异
检验统计量
比较组间变异和组内变异,如果组间变异显
误差均方
• 显著性水平:
c
总的一型错误概率 需要比较的次数
饲料
1 2 • 34例
增重 57 42 60 37 54 13 33 19 39 41 13 29 20 15 13 18 22 13 24 38
N = 20, X·· = 600, X
生物统计
Chap.6 Analysis of Variance I
dfT N 1 32 1 31
dfE N k 32 4 28 dfA k 1 4 1 3
定义统计量 均方(MS) 平方和自由度
MSA
SSA df A
85.8563 3 16.855, MSE
SSE dfE
47.5409 1.6979 28
实例-小鼠脾脏
生物统计
Chap.6 Analysis of Variance I
生物统计
Chap.6 Analysis of Variance I
统计学 第6章 统计推断(1、2节)
即,我们有95%的把握认为,该外资 企业员工平均每周加班时间为52.3小时 至57.7小时之间。
第六章 统计推断
总体成数(比例)
1、假定条件
的区间估计
对于试验结果只有两种情况的总体(二项 总体),且为大样本,即满足
np 5和n(1 - p) 5
2、使用正态分布 z 统计量
第六章 统计推断
第六章 统计推断
设 是总体 的一个参数, 是参数 2的 1 和 X 两个统计量,且 ,对给定的常 1 2 数 ,及任意的 1) , 有 , (0 则称随机区间 ) 1 P( 1 2 是臵信度(臵信水平)为 的臵信区间 1 1 , 2 (区间估计)。其中 分别为臵信下限和 1 和 2 臵信上限。
(比例)为: 225 因为是大样本,故得: p 500 45% p (1 p ) p (1 p ) p z 2 , p z 2 n n
即,我们有95%的把握认为,19岁以下的青少年上网比例 在40.64%至49.36%之间。
第六章 统计推断
在简单随机抽样条件下,样本均值和样本 比例的抽样误差: 样本均值的抽样误差
重复抽样:
x
n
2
不重复抽样:
x
当总体方差 未知时,可用样本方差 代替。
第六章 统计推断
N n ( ) n N 1
2
s
2
样本比例的抽样误差
重复抽样: 不重复抽样:
p
1
n
p
2
第六章 统计推断
、1
2
方式一
分类变量资料的统计推断_OK
2
=
n
·
(
A2 ————
nR nC
-
1)
23
例. 三种药物治疗失眠有效率比较的R×C表
组别 有效 无效 合计 有效率%
新药 6
42
48 12.50
传统药 11
26
37 29.73
安慰剂 29
8
37 78.38
合计 46
76
122 37.70
假设:H0: 三种药物的有效率相同
a+c
b+d
n
2 值、P 值与统计结论
2值
P值
统计结论
<
2
0.05( )
> 0.05
2
0.05( )
0.05
2
0.01( )
0.01
接受H0 差异无统计学意义 拒绝H0 差异有统计学意义 拒绝H0 差异有高度统计学意义
18
四格表 2值的校正
当:1< T < 5,而 n > 40 时,需计算校正 2值
n1 n2
u = —|—p—1 -—p2—|—
S p1-p2
=
| 0.0526 - 0.1011 |
0.0725(1-0.0725)(1/988+1/682)
= 3.76 P < 0.01
结论:BMI 25者糖尿病患病率高于BMI <25者
BMI与糖尿病有关
11
三、 2检验
1. 用途:推断两个或多个总体率(或总体构成
T
,
=1
2 =(22-25.21)2 / 25.21 + (35 – 31.79)2 / 31.79
第六章 统计推断
二、影响抽样误差的因素
(一)抽样单位数的多少。
(二)总体各单位标志值的差异程度。
(三)抽样方法。
(四)抽样的组织形式。
三、抽样平均误差
一个总体可能抽取很多个样本,因此样本指 标(样本平均数、样本成数等)就有不同的 数值,它们与总体指标(总体平均数、总体 成数等)的离差(即抽样误差)也就不同。 抽样平均误差就是反映抽样误差一般水平的 指标,通常用样本平均数(或样本成数)的 标准差来表示。
两部分内容:一是这一可能范围的大小;二
是总体指标落在这个可能范围内的概率。
(二)当2已知时,求μ的置信 区间
例6.7:某种零件的长度服从正态分布,从该批产品 中随机抽取9件,测得它们的平均长度为21.4毫米, 已知总体标准差为=0.15毫米,试建立该种零件平 均长度的置信区间,假定给定置信水平为0.95。 解:因为 所以对于给定的置信水平 x - 1 ) 0.95,有U= 2 / n ~N(0, 。 x P U / 2 +U / 2 =0.95 2 /n 当α=0.05时,Uα/2=1.96,于是有
0.15 0.15 P21.4- .96 1 21.4+ .96 1 =0.95 9 9 即总体均值的置信区间为[21.302,21.498]。
(三)当2未知时,求μ的置信区 间
定理 设x1,x2,…xn,(n≥2)是来自总体 N(μ, 2)的一个样本,则 T= x- ~t(n 1)
x=
当总体单位数N很大时,这个公式可近似 表示为: 2 n
x=
n (- 1 N )
n
(
N n ) N 1
例6.1:有5个工人的日产量分别为(单位:件):6,8,10, 12,14,用重复抽样的方法,从中随机抽取2个工人的日产量, 用以代表这5个工人的总体水平。则抽样平均误差为多少? 解:根据题意可得:
卫生统计学题库
《卫生统计学》考试题库目录第一章绪论第二章定量资料的统计描述第三章正态分布第四章总体均数的估计和假设检验第五章方差分析第六章分类资料的统计描述第七章二项分布与Poisson分布及其应用第八章χ2检验第九章秩和检验第十章回归与相关第十一章常用统计图表第十二章实验设计第十三章调查设计第十四章医学人口统计与疾病统计常用指标第十五章寿命表第十六章随访资料的生存分析附录:单项选择题参考答案第一章绪论一、名词解释1. 参数(parameter) 2。
统计量(statistic) 3. 总体 (population)4。
样本 (sample) 5。
同质 (homogeneity) 6。
变异 (variation)7. 概率 (probability) 8。
抽样误差 (sampling error)二、单选题1.在实际工作中,同质是指:A。
被研究指标的影响因素相同 B。
研究对象的有关情况一样C.被研究指标的主要影响因素相同D.研究对象的个体差异很小E.以上都对2. 变异是指:A。
各观察单位之间的差异 B.同质基础上,各观察单位之间的差异C。
各观察单位某测定值差异较大 D.各观察单位有关情况不同 E。
以上都对3.统计中所说的总体是指:A.根据研究目的而确定的同质的个体之全部B.根据地区划分的研究对象的全体C。
根据时间划分的研究对象的全体 D.随意想象的研究对象的全体E.根据人群划分的研究对象的全体4。
统计中所说的样本是指:A。
从总体中随意抽取一部分 B.有意识地选择总体中的典型部分C。
依照研究者的要求选取有意义的一部分 D。
从总体中随机抽取有代表性的一部分E.以上都不是5.按随机方法抽取的样本特点是:A.能消除系统误差 B。
能消除随机测量误差 C。
能消除抽样误差D.能减少样本偏性E.以上都对6.统计学上的系统误差、测量误差、抽样误差在实际工作中:A。
均不可避免 B.系统误差和测量误差不可避免C。
测量误差和抽样误差不可避免 D。
分类变量资料统计推断
s p2
0.0450 0.0450 =0.0197=1.97%
111
二、总体率的估计
(estimation of confidence interval of rate) 1. 正态近似法
应用条件:
当样本含量n足够大,且样本率p或1-p均不太小时(如 np和n(1-p)均大于5),样本率的分布近似正态分布,
分布近似于正态分布
1. 样本率与总体率的比较
公式
p
p
u= p
1
n
举例
根据大量调查资料,城镇25岁及以上者高血压患病率 为11%。某研究组在某油田职工家属区随机抽查了25 岁及以上者598人,82人确诊为高血压。问油田职工 家属的高血压患病率与一般人有无不同?
领悟题目含 义,拟定分 析方法。
第三节 卡方检验
卡方检验的应用: 1、两个或两个以上总体率之间差别有无统计 学意义 2、两个或两个以上总体构成比之间差别有无 统计学意义 3、两分类变量间有无相关关系 4、频数分布的拟合优度检验
2. 两个样本率的比较
公式
u=
p1 p2
pc
(1
pc
1 )(
n1
1 n2
)
(1)
pc
X1 n1
X2 n2
(2)
公式中P1和P2为两个样本率;Pc为合并样 本率;X1和X2分别为两个样本的阳性例数
条件 两样本的np和n(1-p)均大于5
比较 目的
推断样本率分别代表的未知总 体率π1和π2是否相同 。
第二步: 确定检验水准
α=0.05
第三步:选定检验方法,计算统计量
本例n1=100,P1=14%,n2=120,P2=25%,Pc=20%, 1-Pc=80%,代入公式得:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1不满足正态近似条件,所以采用直接计算概率法。
H0:加维生素C的治愈率与不加相同,即π=π0=0.6
H1:加维生素C的治愈率高于不加维生素C,即π>π0
α=0.05
P(X≤8)=1-P(X≥9)=1-P(X=9)-P(X=10)=1-C109*0.69*0.41-C1010*0.610*0.40= 0.9536>0.05 不拒绝H0,差别无统计学意义,可以认为加维生素C的治愈率与不加相同。
2满足正态近似条件,采用正态近似法。
H0:经健康教育后的高血压患病率与以前相同,即π=π0=0.6
H1:经健康教育后的高血压患病率比以前降低,即π<π0
单侧α=0.05
u==4.9453536
u>u0.05,单侧=1.64
p<0.05,拒绝H0,接受H1,差别有统计学意义,可以认为经健康教育后的高血压患病率与以前有差别。
3①建立检验假设和确定检验水准
H0:男女大学生HBV感染对其心理影响相同,即π1 =π2
H1:男女大学生HBV感染对其心理影响不同,即π1≠π2
检验水准α=0.05
②计算检验统计量
χ2=(ad-bd)2*n/(a+b)(c+d)(a+c)(b+d)
=(250*213-246*320)/(250+320)(246+213)(250+246)(320+213)=9.651
ν=1
③确定p值
查χ2届值表,得p<0.05
④统计推断
按α=0.05水准,拒绝H O,接受H1,差别有统计学意义,可以认为HBV感染对不同性别的大学生在心理行为方面的影响不同。
4①建立检验假设和确定检验水准
H0:两组的治愈率相等,即π1 =π2
H1:两组的治愈率不等,即π1≠π2
检验水准α=0.05
P (i) = 0.280>0.05 ③统计推断
按α=0.05水准,不拒绝H 0,差别无统计学意义,尚不能认为两组治愈率有差别。
5①建立检验假设和确定检验水准
H 0:治疗三种类型病人的有效率相同,即π1 =π2 =π3 H 1:治疗三种类型病人的有效率不等或不全相等。
检验水准α=0.05 ②计算检验统计量 ()∑
∑⎪⎪⎭
⎫ ⎝⎛-=-=i
C R i
i i n n A n T T A 122
2
χ = 286*(712
+ 272
+1042
+ 422
+ 242
+182
-1)=3.6389
199*98 87*98 199*146 87*146 199*42 87*42 ③确定p 值
查χ2
界值表,得p>0.05 ④统计推断
按α=0.05水准,不拒绝H 0,拒绝H 1,差别无统计学意义,尚不能认为治疗三种类型病
人的有效率有差别。
6①建立检验假设和确定检验水准
H 0:该三种人群有相同的血型分布,即π1 =π2 =π3 H 1:该三种人群的血型分布不等或不全相等。
检验水准α=0.05 ②计算检验统计量 ()∑
∑⎪⎪⎭
⎫ ⎝⎛-=-=i
C R i
i i n n A n T T A 122
2
χ = 9312*(6792
+1342
+ …… +4352
- 1)= 71.180
3720*1883 788*1883 546*6522 ③ 确定p 值
查χ2
界值表,得p<0.05 ④统计推断
按α=0.05水准,拒绝H 0,接受H 1,差别有统计学意义,可以认为三种人群的血型分布
不等或不全相等。
7①建立检验假设和确定检验水准
H 0:两种检验方法的结果相同,即总体B=C H 1:两种检验方法的结果不同,即总体B ≠C 检验水准α=0.05 ②计算检验统计量 ()c
b c b +--=
2
2
1χ=1.1364
③ 确定p 值 查χ2
界值表,得p>0.05 ④统计推断
按α=0.05水准,不拒绝H 0,差别无统计学意义,尚不能认为两种免疫学方法的阳性率
有差别。