分类资料统计推断
分类资料的统计分析A型选择题29
第十章分类资料的统计分析A型选择题1、下列指标不属于相对数的是()A、率B、构成比C相对比D百分位数E、比2、表示某现象发生的频率或强度用A 构成比B 观察单位C 相对比D 率E 百分比3、下列哪种说法是错误的()A、计算相对数尤其是率时应有足够数量的观察单位数或观察次数B、分析大样本数据时可以构在比代替率C应分别将分子和分母合计求合计率或平均率D相对数的比较应注意其可比性E、样本率或构成比的比较应作假设检验4、以下哪项指标不属于相对数指标()A.出生率B.某病发病率C.某病潜伏期的百分位数D.死因构成比E.女婴与男婴的性别比5、计算麻疹疫苗接种后血清检查的阳转率,分母为().A.麻疹易感人群B.麻疹患者数C.麻疹疫苗接种人数D.麻疹疫苗接种后的阳转人数E.年均人口数6、某病患者120人其中男性114人,女性6人,分别占95%与5%,则结论为().A.该病男性易得B.该病女性易得C.该病男性、女性易患率相等D.尚不能得出结论E.以上均不对7、某地区某重疾病在某年的发病人数为则该疾病发病人数的年平均增长速度为(0,以后历年为1 , 2,…,n , )°8%这种指标是8、 按目前实际应用的计算公式,婴儿死亡率属于(A. 相对比(比,ratio )B. 构成比(比例,proportion )C. 标准化率(standardized rate )D. 率(rate )E. 以上都不对9、 某年某地乙肝发病人数占同年传染病人数的9. A. 集中趋势B. 时点患病率C. 发病率D. 构成比E. 相对比10、 构成比:A. 反映事物发生的强度B 、 反映了某一事物内部各部分与全部构成的比重C 既反映A 也反映BD 表示两个同类指标的比E 、表示某一事物在时间顺序上的排列E. an 1 a 。
11、构成比之重要特点是各组成部分的百分比总和:A.必大于1B、必小于1C必等于1D随着资料的变化而变化E、随着各构成部分大小改变而变12 、某日门诊各科的疾病分类统计资料,可以作为:A.计算死亡率的基础B、计算发病率的基础C计算构成比的基础D计算相对比基础13、计算率的平均值时:A.将各个率直接相加来求平均值B、以总的绝对数值为依据求平均值C先标化,再按A法计算D按求中位数的方法求平均值E、以上都不对14、分类资料的统计描述常用的指标是A.平均数B.标准化死亡率比C.变异系数D.相对数E.动态数列分析指标15、. 动态数列分析中的定基比和环基比属于A.相对比B.率C.构成比D.平均数E.频数16、某地1971-1995年床位发展情况列于下表。
第三节 分类变量资料的统计分析-统计推断
σp =
π (1 − π )
n
如果总体率π未知,用样本率 估计 如果总体率 未知,用样本率p估计 未知
sp =
p(1− p) n
19:46
率的标准误的计算
例 观察某医院产妇 106 人, 其中行剖腹产者 62 人, 剖腹产率为 58.5%,试估计剖腹产率的标准误。 ,试估计剖腹产率的标准误。 解: 已知 n=106,p=0.585,其标准误为: , ,其标准误为:
19:46
小 结
1.样本率也有抽样误差,率的抽样误差的大小用σp或Sp .样本率也有抽样误差,率的抽样误差的大小用 来衡量。 来衡量。 2.率的分布服从二项分布。当n足够大,π和1-π均不太小 .率的分布服从二项分布。 足够大, 和 均不太小 足够大 ,有nπ≥5和n(1-π)≥5时,近似正态分布。 和 ( ) 时 近似正态分布。 3. 总体率的可信区间是用样本率估计总体率的可能范围 . 分布近似正态分布时, 。当p分布近似正态分布时,可用正态近似法估计率的可信区 分布近似正态分布时 间。 4. 根据正态近似原理 , 可进行样本率与总体率以及两样 . 根据正态近似原理, 本率比较的u检验。 本率比较的 检验。 检验
19:46
T11= (a+b)×pc= (a+b)×[(a+c.)/ n]=R1C1/n =21.3 = × × T12 = (a+b)×(1-pc)= (a+b)×[(b+d.)/ n] =R1C2/n =182.7 × × T21 = (c+d)×pc= (c+d)×[(a+c)/ n] =R2C1/n =6.7 × × T22 = (c+d)×(1-pc)= (c+d)×[(b+d.)/ n] =R2C2/n =57.3 × × 行 row)合 ×列 column)合 ( 计 ( 计 nRnC T= = n 总 数 例
预防医学-医考讲义-第二单元 医学统计学方法
第二单元医学统计学方法一、基本概念和基本步骤(一)统计学中的几个基本概念1.总体的类型总体:是根据研究目的而确定的同质的研究对象的集合。
分为有限总体和无限总体。
样本:是指从总体中随机抽取的有代表性的一部分观察单位的集合。
2.同质和变异同质:指被研究指标的影响因素完全相同。
是科学研究的基础,是相对的。
变异:是同质基础上的个体差异。
是绝对的。
统计的任务就是在同质分组的基础上,通过对个体变异的研究,透过偶然现象,反映同质事物的本质特征和规律。
统计数据具有变异的特征。
3.变量和变量值变量:观察对象的特征。
变量分为定量变量、定性变量、有序数据。
变量值:对变量观察或测量的结果。
4.参数和统计量参数:总体的统计指标。
μ,π,σ统计量:样本的统计指标。
,p,s【例如】研究北京2012年正常成年男性的血压值。
研究对象观察单位变量变量值同质变异有限总体总体参数样本统计量5.误差误差:观察值与实际值的差别称为误差。
误差包括抽样误差和非抽样误差。
抽样误差:由于个体变异的存在,在抽样研究中产生的样本统计量与相应的总体参数间的差异。
非抽样误差包括过失误差和系统误差。
6.概率概率:随机事件发生可能性大小的度量。
常用P表示,P值范围在0~1之间。
小概率事件:P<0.05为小概率。
统计学认为小概率事件在一次试验中不大可能发生。
(二)统计学工作基本步骤1.统计设计。
2.数据整理。
3.统计描述。
4.统计推断。
二、定量资料的统计描述描述统计是通过图表或统计指标,对数据资料进行整理、分析,并对数据的分布状态、数字特征进行估计和描述的方法。
(一)集中趋势指标1.算数均数μ,适用于正态分布或近似正态分布资料。
2.几何均数(G)适用于对数正态分布或等比资料。
3.中位数(M)与百分位数(P)中位数:是一组由小到大按顺序排列的观察值中位次居中的数值,用M表示。
百分位数(P X):是把一组数据从小到大排列,分成100等份,各等份含1%的观察值,分割界限上的数值就是百分位数。
两分类资料的统计描述与推断
频数分布表包括两列,一列表示类别, 另一列表示该类别出现的频数。通过 频数分布表,可以直观地了解各类别 的数量分布情况,为后续的统计分析 提供基础数据。
比例与百分比
总结词
比例和百分比是用来描述两分类资料中各类别的相对大小。
详细描述
比例是各类别的数量与总数量的比值,而百分比则是比例乘以100。通过比例和 百分比,可以了解各类别的相对大小,进一步分析各类别的权重和影响。
详细描述
在两分类资料中,中位数通常用于描述某一类别的中间状态或中心趋势。例如,在一组 关于消费者年龄的数据中,中位数可以表示消费者的平均年龄或年龄分布的中心趋势。
算术平均数
总结词
算术平均数是所有数值的和除以数值的 个数。
VS
详细描述
在两分类资料中,算术平均数可以用于描 述某一类别的平均水平或中心趋势。例如 ,在一组关于消费者购买力的数据中,算 术平均数可以表示消费者的平均购买力水 平。
概率与概率分布
概率
描述随机事件发生的可能性大小。
概率分布
描述随机变量取值可能性的分布情况。
随机抽样与抽样分布
随机抽样
从总体中按照随机原则抽取一部分观察单位进行研究 。
抽样分布
由样本数据推导出的统计量值的分布。
统计量与参数
统计量
基于样本数据计算出的量值,用于描 述样本数据的特征。
参数
描述总体特性的量值,通常通过总体 数据计算得出。
03
CHAPTER
两分类资料的离散程度描述
异众比率
异众比率
异众比率是用于描述分类数据中非众数频数 的相对重要性。其计算公式为异众比率=非 众数频数/总频数。异众比率越大,说明非 众数频数所占比重越大,数据的离散程度越 大。
计数资料的统计描述与统计推断
2 nnARn2C 1
(一) 多个样本率的比较:
表3.8 三种药物治疗高血压的疗效
处理
有效
无效
合计
有效率%
复方哌唑嗪 35
5
40
87.50
复方降压片 20
10
30
66.67
安慰剂
7
25
32
21.88
合计
62
40
102
60.78
38
H0:三种处理方法的有效率相等, 即π1= π2= π3 H1:三种处理方法的有效率不等或不全相等
某类死因构某 成同 年 比年 某死 类亡 死总 因人 死 1数 亡 0% 0人数
8
(二)疾病统计指标
某 病 发病 一率 定 该时 期期 间内 新可 病 发能 的 生 例发 平 的 数生 均 某 某 人 K病
某病患病率 某该时时点点某受病检现人患口病 K数例数
某
病
病死同 因率期 某某 病
死亡人数 病病 10人 % 0 数
29
31
(三)四格表χ2检验的专用公式
2
(ad b)c2n
(ab)c(d)a (c)b (d)
两组人群尿棕色素阳性率比较
组别
阳性数
阴性数
合计
铅中毒病人 对照组
29(a) 9(c)
7(b) 28(d)
36(a+b) 37(c+d)
合计
38(a+c)
35(b+d)
73(n)
阳性率(%) 80.56 24.32 52.05
712 142 185
61
1100
4
0.6
9
6.3
计量资料统计推断(t检验)-预防医学-课件
02
t检验的步骤
建立假设
假设检验的基本思想
设立原假设的依据
在假设检验中,通常先设立一个原假 设,然后基于样本数据对原假设进行 检验,判断是否拒绝原假设。
原假设的设立通常基于已有的研究结 果、理论或实践经验,并且原假设应 该是一个可以验证的命题。
原假设与备择假设
原假设通常是研究者想要否定的假设 ,备择假设则是研究者想要接受的假 设。
p值是用于判断是否拒绝原假设 的统计量,p值越小,说明样本 数据与原假设之间的差异越大,
越有理由拒绝原假设。
显著性水平
显著性水平是预先设定的一个临 界值,用于判断是否拒绝原假设
,通常取0.05或0.01。
结论的表述
根据p值与显著性水平的比较结 果,可以得出是否拒绝原假设的 结论,并进一步解释结果的意义
断实验处理或条件改变对数据的影响。
两独立样本t检验
总结词
用于比较两个独立样本的平均值是否存 在显著性差异。
VS
详细描述
两独立样本t检验,也称为两组独立样本t 检验,是统计学中常用的方法之一,用于 比较两个独立样本的平均值是否存在显著 差异。这种方法常用于比较不同组对象的 数据、不同条件下的独立测量等。通过计 算t统计量,我们可以判断两组独立样本 的均值是否存在显著差异,从而推断不同 组别或条件对数据的影响。在进行两独立 样本t检验时,需要注意样本来自的总体 是否具有方差齐性和正态分布等统计假设 ,以确保检验结果的准确性和可靠性。
t检验的适用范围
• t检验适用于样本量较小、数据分布情况未知或总体标准差未知的情况。在预防医学领域,t检验常用于比较两组人群的生理 指标、行为习惯等计量资料的差异。
t检验的假设条件
• 假设条件包括:样本数据来自正态分布总体、总体 方差齐性、独立样本等。在进行t检验之前,需要检 验样本数据是否满足这些假设条件,以确保统计推 断的准确性。
医学统计学分类变量资料的统计推断
率的标准误的意义
▪ 率的标准误小,说明抽样误差较小,表示 样本率与总体率越接近;
▪ 率的标准误大,说明抽样误差较大,表示 样本率与总体率相距较远。
▪ 有研究者在某地采用随机整群抽样法获得 642名青少年,调查其留守情况,得出留守 率为16.98%,求其留守率的标准误。
▪ 已知n=642,p=0.1698,则
单侧α= 0.05
本例,n=304,p=0.316,π0=0.2,则有
u=5.06>1.645,p<0.05,则拒绝H0,接受H1,老年 胃溃疡患者出血率高于一般胃溃疡患者。
案例
▪ 某地调查了50岁以上吸烟者200人中患慢 性支气管炎者41人,患病率为20.5%;不 吸烟者162人中患慢性支气管炎者15人, 患病率为9.3%。
案例
▪ 2003年,某学校欲了解大学生乙肝表面抗原 携带情况以评价防控措施,随机抽取1000名 大学生,做乙肝表面抗原检查,查得乙肝表 面抗原阳性者52人,乙肝表面抗原阳性率为 5.2%,欲用此率推断该校大学生乙肝表面抗 原总体阳性率。
例
▪ 某校大学生乙肝表面抗原总体阳性率的 95%的可信区间:
分类变量资料的 统计推断
二项分布
▪ 考虑一系列彼此独立的随机试验,每次试 验只有两个可能发生的结果,且每种结果 发生的可能性是一定的,即发生和不发生 的概率分别是:和1- ,那么这n次试验 中发生或者不发生的次数服从二项分布。 (没有“排列”的意义,而体现了“组合” 的意义)
只有两个可能发生的结果
▪ 问题
➢ 据以上资料能否下结论说吸烟者慢性支气管炎 患病率高于不吸烟者?
➢ 用什么方法对两个率进行比较?
吸烟组和不吸烟组慢性支气管炎患病率比较
分类变量资料的统计推断(预防医学)
(2)任一格的T<1或n≤40时,用确切概率计算法。
基本公式 专用公式
2
A T 0.52
T
2
ad bc n 22 n
(a b)(c d)(a c)(b d)
23
二、配对四格表资料的2检验
用途:用于配对定性资料差异性的假设检验 。
H0 : 1=2
H1 : 1 2 , =0.05
2.计算统计量
T11= 50.49
T12=179.51
T21= 39.51
T22=140.49
18
2 (A T )2 6.36
T
=(2-1)(2-1)=1 3.确定P及结论
根据 =1查 2 界值表,得0.01<P < 0.025,按=0.05的检验水准,拒绝H0, 接受H1,可认为两组发病率差别有统计学 意义,服药组流感发病率低与对照组。
此时,样本率p也是以总体率为中心
呈正态分布或近似正态分布的 。
6
一、样本率与总体率比较的u检验
u值的计算公式为
u | p 0 | | p 0 |
p
0 (1 0 ) n
7
二、两样本率比较的u检验
适用条件为两样本的np和n(1-p)均大于5。 计算公式为
Байду номын сангаас
u p1 p2
p1 p2
样本含量n足够大, p和1-p均不太小,且
np与n(1-p)均≥5时 ,
p u S p
4
❖ ㈡ 查表法
❖ 当样本含量较小(如n≤50),np或n(1- p)<5时,样本率的分布呈二项分布,总体
率的可信区间可据二项分布的理论求得。
卫生学 10.分类变量资料的统计推断
40 6 2 16 64 / 2
42 22 56 8
2
64
4.79
自由度υ=(行数-1)(列数-1)
=(2-1)(2-1)=1
查X2界值表,得 P<0.05,按α=0.05水准, 拒绝H0,可认为两组有效率差别有统计学意 义。
三、配对设计分类变量资料的X2检验
H0:π= π0
H1:π≠ π0
α=0.05 P=0.26
u p 0 0.30 0.26 0.3(1 0.3) 385
0 (1 0 )
n
1.713
查t界值表中υ为∝对应的界值,得P> 0.05,按α=0.05水准,不拒绝H0,尚不 能认为该院认为该院直肠癌患者围术期 并发症发生率与一般情况不同
1 n2
)
0.0854 0.1486 1 1 0.1258(1 0.1258) 8207 14585
0.0046
查t界值表中υ为∝对应的界值得, P< 0.01,按α=0.05水准,拒绝H0,接受H1, 可认为该人群HBV感染率有性别差异。
第三节
x2 检 验
率的抽样分布特征:
1、为离散型分布 2、π为0.5时,呈对称分布 3、当n不断增大时,二项分布逐渐逼近正 态分布 • 当nP和n(1-P)都大于5时,二项分布近 似于正态分布。
二、率的抽样误差和总体率的估计
一、率的抽样误差和标准误(sampling error and standard error of rate)
表10-9 两种血清学方法对肝癌检测的结果比较
甲法 + 乙法 合计
+
合计
50(a)
医学统计学重点要点
医学统计学重点第一章绪论1.基本概念:总体:根据研究目的确定的性质相同或相近的研究对象的某个变量值的全体。
样本:从总体中随机抽取部分个体的某个变量值的集合.总体参数:刻画总体特征的指标,简称参数。
是固定不变的常数,一般未知。
统计量:刻画样本特征的指标,由样本观察值计算得到,不包含任何未知参数。
抽样误差:由随机抽样造成的样本统计量与相应的总体参数之间的差异。
频率:若事件A在n次独立重复试验中发生了m次,则称m为频数。
称m/n为事件A在n次试验中出现的频率或相对频率。
概率:频率所稳定的常数称为概率。
统计描述:选用合适统计指标(样本统计量)、统计图、统计表对数据的数量特征及其分布规律进行刻画和描述。
统计推断:包括参数估计和假设检验。
用样本统计指标(统计量)来推断总体相应指标(参数),称为参数估计.用样本差别或样本与总体差别推断总体之间是否可能存在差别,称为假设检验。
2.样本特点:足够的样本含量、可靠性、代表性。
3。
资料类型:(1)定量资料:又称计量资料、数值变量或尺度资料.是对观察对象测量指标的数值大小所得的资料,观察指标是定量的,表现为数值大小。
每个个体都能观察到一个观察指标的数值,有度量衡单位.(2)分类资料:包括无序分类资料(计数资料)和有序分类资料(等级资料)①计数资料:是将观察单位按某种属性或类别分组,清点各组观察单位的个数(频数),由各分组标志及其频数构成。
包括二分类资料和多分类资料。
二分类:将观察对象按两种对立的属性分类,两类间相互对立,互不相容.多分类:将观察对象按多种互斥的属性分类②等级资料:将观察单位按某种属性的不同程度、档次或等级顺序分组,清点各组观察单位的个数所得的资料。
4.统计工作基本步骤:统计设计、资料收集、资料整理、统计分析.第二章实验研究的三要素1.实验设计三要素:被试因素、受试对象、实验效应2。
误差分类:随机误差(抽样误差、随机测量误差)、系统误差、过失误差。
3。
实验设计的三个基本原则:对照原则、随机化分组原则、重复原则.4。
统计学习题(总结版)
医学统计方法概述l.统计中所说的总体是指:AA根据研究目的确定的同质的研究对象的全体B随意想象的研究对象的全体C根据地区划分的研究对象的全体D根据时间划分的研究对象的全体E根据人群划分的研究对象的全体2.概率P=0,则表示BA某事件必然发生B某事件必然不发生C某事件发生的可能性很小D某事件发生的可能性很大E以上均不对3.抽签的方法属于 DA分层抽样B系统抽样C整群抽样D单纯随机抽样E二级抽样4.测量身高、体重等指标的原始资料叫:BA计数资料B计量资料C等级资料D分类资料E有序分类资料5.某种新疗法治疗某病患者41人,治疗结果如下:治疗结果治愈显效好转恶化死亡治疗人数8 23 6 3 1该资料的类型是: DA计数资料B计量资料C无序分类资料D有序分类资料E数值变量资料6.样本是总体的 CA有价值的部分B有意义的部分C有代表性的部分D任意一部分E典型部分7.将计量资料制作成频数表的过程,属于¬¬统计工作哪个基本步骤:CA统计设计B收集资料C整理资料D分析资料E以上均不对8.统计工作的步骤正确的是 CA收集资料、设计、整理资料、分析资料B收集资料、整理资料、设计、统计推断C设计、收集资料、整理资料、分析资料D收集资料、整理资料、核对、分析资料E搜集资料、整理资料、分析资料、进行推断9.良好的实验设计,能减少人力、物力,提高实验效率;还有助于消除或减少:BA抽样误差B系统误差C随机误差D责任事故E以上都不对10.以下何者不是实验设计应遵循的原则 DA对照的原则B随机原则C重复原则D交叉的原则E以上都不对第八章数值变量资料的统计描述11.表示血清学滴度资料平均水平最常计算 BA算术均数B几何均数C中位数D全距E率12.某计量资料的分布性质未明,要计算集中趋势指标,宜选择 CA XB GC MD SE CV13.各观察值均加(或减)同一数后:BA均数不变,标准差改变B均数改变,标准差不变C两者均不变D两者均改变E以上均不对14.某厂发生食物中毒,9名患者潜伏期分别为:16、2、6、3、30、2、lO、2、24+(小时),问该食物中毒的平均潜伏期为多少小时?CA 5B 5.5C 6D lOE 1215.比较12岁男孩和18岁男子身高变异程度大小,宜采用的指标是:DA全距B标准差C方差D变异系数E极差16.下列哪个公式可用于估计医学95%正常值范围 AA X±1.96SB X±1.96SXC μ±1.96SXD μ±t0.05,υSXE X±2.58S17.标准差越大的意义,下列认识中错误的是 BA观察个体之间变异越大B观察个体之间变异越小C样本的抽样误差可能越大D样本对总体的代表性可能越差E以上均不对18.正态分布是以 EA t值为中心的频数分布B 参数为中心的频数分布C 变量为中心的频数分布D 观察例数为中心的频数分布E均数为中心的频数分布19.确定正常人的某项指标的正常范围时,调查对象是 BA从未患过病的人B排除影响研究指标的疾病和因素的人C只患过轻微疾病,但不影响被研究指标的人D排除了患过某病或接触过某因素的人E以上都不是20.均数与标准差之间的关系是 EA标准差越大,均数代表性越大B标准差越小,均数代表性越小C均数越大,标准差越小D均数越大,标准差越大E标准差越小,均数代表性越大第九章数值变量资料的统计推断21.从一个总体中抽取样本,产生抽样误差的原因是 AA总体中个体之间存在变异B抽样未遵循随机化原则C被抽取的个体不同质D组成样本的个体较少E分组不合理22.两样本均数比较的t检验中,结果为P<0.05,有统计意义。
分类变量的统计推断
比例
某一类别观察值数量与总数之比,用于描述各组在总体中的 比重。
百分比
比例乘以100,用于更直观地表示各组在总体中的比重。
列联表与卡方检验
列联表
将两个分类变量组合成一个表格,用 于展示两个变量之间的关系。
卡方检验
用于检验两个分类变量之间是否独立, 通过比较实际观测频数与期望频数来 评估变量之间的关联性。
适用场景
适用于描述不同群体之间的分布差异,如性别比例、城乡人口比 例等。
注意事项
比例估计需要保证样本的随机性和代表性,同时需要注意组间比 较的合理性和公平性。
风险比与优势比
估计方法
通过统计模型分析分类变量与结
果变量之间的关系,计算风险比
(relative
risk)和优势比
(odds ratio)。
分类变量的类型
1 2
品质型分类变量
表示事物的属性或特征,如性别、血型等。
顺序型分类变量
表示事物的有序类别,如评分等级、教育程度等。
3
分类型分类变量
介于品质型和顺序型之间,如星期几、月份等。
分类变量的应用场景
人口统计学
用于描述人口特征和分布,如性别、年龄、 民族等。
市场调查
用于了解消费者偏好和行为,如产品品牌、 购买渠道等。
02
随机森林具有较高的分类准确率和稳定性,能够处理高维特 征和大数据集。
03
它还提供了特征重要性和偏差估计等附加信息,有助于理解 和改进模型。
支持向量机
01
支持向量机(SVM)是一种有监督学习算法,旨在找到能够将 不同类别的数据点最大化分隔的决策边界。
02
SVM适用于线性可分和线性不可分的数据集,尤其在处理小样
实验9 有序分类变量的统计推断
实验9 有序分类变量的统计推断-非参数检验
1 在关于放松(比如听音乐等)对成年女性入睡所需时间影响的研究中,抽取了10名女性组成样本。
下表给出了10个对象在有放松条件和无放松条件下入睡所需
数组成的样本,警察记录了如下表所示的每日犯罪报告的数据。
给定0.05的显
3一名证券经纪人收集到了某年三大公司的股票每股所能获利的钱数,如下表所示:
1.将样本数据输入spss,点击“分析”—>“旧对话框”—>“2个相关样本”
点击确定,得到
负秩个数8个,秩和为45.5;正秩个数2个,秩和为45.5;
Z=
w w
W δμ
-
=
2421
*
11
*
104/
110
5.9-
=-1.852
2.
H0:无显著性差异。
H1:有显著性差异。
点击“分析”—>“非参数检验”—>“旧对话框”—>“2个独立样本”
可以看出在不同季节上的秩和相差较大
Mann-Whitney U统计量为16.5;
Wilcoxon W统计量为71.5;
Z值为-2.548.
Sig=0.011<0.05,所以拒绝原假设。
说明有显著性差异。
3.
点击“分析”—>“非参数检验”—>“旧对话框”—>“K个独立样本”得到
H0:它们之间没有显著性差异。
H1:它们之间存在显著性差异。
计算机公司的秩均值为10.29,药品公司为7.60
公共服务公司为8.60。
得到sig=0.647>0.05,接受原假设。
所以它们之间没有显著性差异,。
8第7章 两分类资料的统计描述与推断
—
38079 4755
—
38079 42834
100.0
110.7 112.1 92.5 82.1
100.0
110.7 101.2 82.5 88.8
—
10.7 1.2 17.5 11.2
-69433 -26599 -36749 -63348
2000
2001 2002 2003 2004 2005
319173
教学内容提要 : 重点讲解:相对数的意义,样本率与已知总体率、两样 本比较。 讲解:总体率的置信区间,率的标准化。
介绍:概率的加法、乘法定理及全概率、Bayes公式。
重点:相对数的意义,样本率与总体率、两样本比较。
难点:概率的加法、乘法定理及全概率、Bayes公式, 二项分布和Poisson分布。
第一节
第七章 两分类资料的统计描述与推断
P106~120
教学目的与要求 :6学时
掌握:相对比、构成比、率以及动态数列的意义, 总体率的置信区间,样本率与已知总体率比较、两 样本比较。
熟悉:率的标准化思想。
了解:概率的加法定理、乘法定理及全概率公式、 Bayes公式。
第七章 两分类资料的统计描述与推断
P106~120
事件A在n次重复独立试验中发生的次数X 是一个随机变量,X的可能取值为0,1, 2,…,n。在n次重复独立试验中,事件A 发生次数X=k的概率为: Pn (X=k)=Cnkπk(1-π)n-k ,(k=0,1,2,…,n)
则称随机变量X服从参数为n和π的二项分布,或简 称X为二项分布变量。
二项分布的图形
二项分布的概率函数
Pn(k)= Cnkpk(1- p) n-k (k =0,1,2,…,n )
分类变量资料的统计推断_OK
2
=
n
·
(
A2 ————
nR nC
-
1)
23
例. 三种药物治疗失眠有效率比较的R×C表
组别 有效 无效 合计 有效率%
新药 6
42
48 12.50
传统药 11
26
37 29.73
安慰剂 29
8
37 78.38
合计 46
76
122 37.70
假设:H0: 三种药物的有效率相同
a+c
b+d
n
2 值、P 值与统计结论
2值
P值
统计结论
<
2
0.05( )
> 0.05
2
0.05( )
0.05
2
0.01( )
0.01
接受H0 差异无统计学意义 拒绝H0 差异有统计学意义 拒绝H0 差异有高度统计学意义
18
四格表 2值的校正
当:1< T < 5,而 n > 40 时,需计算校正 2值
n1 n2
u = —|—p—1 -—p2—|—
S p1-p2
=
| 0.0526 - 0.1011 |
0.0725(1-0.0725)(1/988+1/682)
= 3.76 P < 0.01
结论:BMI 25者糖尿病患病率高于BMI <25者
BMI与糖尿病有关
11
三、 2检验
1. 用途:推断两个或多个总体率(或总体构成
T
,
=1
2 =(22-25.21)2 / 25.21 + (35 – 31.79)2 / 31.79
分类变量资料统计推断
s p2
0.0450 0.0450 =0.0197=1.97%
111
二、总体率的估计
(estimation of confidence interval of rate) 1. 正态近似法
应用条件:
当样本含量n足够大,且样本率p或1-p均不太小时(如 np和n(1-p)均大于5),样本率的分布近似正态分布,
分布近似于正态分布
1. 样本率与总体率的比较
公式
p
p
u= p
1
n
举例
根据大量调查资料,城镇25岁及以上者高血压患病率 为11%。某研究组在某油田职工家属区随机抽查了25 岁及以上者598人,82人确诊为高血压。问油田职工 家属的高血压患病率与一般人有无不同?
领悟题目含 义,拟定分 析方法。
第三节 卡方检验
卡方检验的应用: 1、两个或两个以上总体率之间差别有无统计 学意义 2、两个或两个以上总体构成比之间差别有无 统计学意义 3、两分类变量间有无相关关系 4、频数分布的拟合优度检验
2. 两个样本率的比较
公式
u=
p1 p2
pc
(1
pc
1 )(
n1
1 n2
)
(1)
pc
X1 n1
X2 n2
(2)
公式中P1和P2为两个样本率;Pc为合并样 本率;X1和X2分别为两个样本的阳性例数
条件 两样本的np和n(1-p)均大于5
比较 目的
推断样本率分别代表的未知总 体率π1和π2是否相同 。
第二步: 确定检验水准
α=0.05
第三步:选定检验方法,计算统计量
本例n1=100,P1=14%,n2=120,P2=25%,Pc=20%, 1-Pc=80%,代入公式得:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
表1 用药组和对照组的流感发病率
组别 观察人数 发病人数 发病率(%)
用药组
100
14
14.0
对照组
120
30
25.0
合计
220
44
20.0
此为两大样本率的比较,可用u检验。
假设检验过程:
设
α= 0.05
计算统计量u值:
u
p1 p2 p0 (1 p0 )(1/ n1 1/ n2 )
2.031
u
0.14 0.25
愈合率差别显著,呋喃硝胺的愈合率高于甲氰咪胍。
(2)四格表资料χ2检验应用注意:
①当n>40,且任意T≥5时,可 直接使用 四格表专用公式。
②当n>40,且任意1<T<5时,应计算校正χ2值
,其计算公式
为:
ad bc n 2 n
2
2
(a b)(c d )(a c)(b d )
例5. 某医生欲比较胞磷胆碱与脑益嗪治疗脑动脉硬化的疗效,观
312 51 80
142 1980
1
=14.29
确定P值,作结论:
查χ2界值表, 按υ=(R-1)(C-1)求得υ=
2,
, 2 0.005, 2
10.60
因而P <0.005 。按α=0.05水准,拒绝H0 ,可以认为两所医院
病例的梗塞部位的分布(构成比)不同,因而可比性较差。
例11 某市和某两县进行地方性甲状腺肿普查,查出各 型患者如表9,问三地间地方性甲状腺肿的型别构成是否不 同?
1、χ2检验的基本思想
例4:某医生用国产呋喃硝胺治疗十二指肠球部溃疡,以甲氰咪胍 作对照组,结果如表5,问两种方法治疗效果有无差别?
表2. 两种药物治疗十二指肠球部溃疡的效果
处理组
愈合
未愈合
合计
愈合率(%)
呋喃硝胺组
54(48.2)
8 (13.8)
62
87.10
甲氰咪胍组
44 (49.8)
20 (14.2)
传统疗法 162
43
205
79.02
新疗法
121
13
134
90.30
合计
283
56
339
83.48
2 162 13 43 1212339 = 7.47
205 134 56 283
3、行×列表(R×C表)资料的χ2检验
行×列表资料即基本数据在四个以上,如多个率的比较,其基本数 据为R行×2列;两组构成比的比较,其基本数据为2行×C列;多组构 成比的比较,其基本数据为R行×C列。
检验统计量计算公式为:
1)]
2 n
A2 nR nC
1
,[υ=(R-1)(C-
其应用条件是 T < 5 的格子数不超过 1/5 和没有任意格的 T<1 。 如果出现上述情况应作如下处理:
①根本办法是增加观察例数,使各格基本数据增大;②将T较小的 行或列与性质相近的行或列作合理的合并。
例9 某地在流行性脑脊髓膜炎流行期间进行了带菌 调查,结果如表7,问不同人群带菌率是否不同?
市级医院
65
52
13
80.00
乡镇医院
53
22
31
41.51
合计
118
74
44
62.71
采用χ2检验
2 52 31 13 222 118
65 53 44 74
= 18.50
例8 某医生用两种疗法治疗某病,结果如表6 ,问可 否认为新疗法优于传统疗法?
表6 两种疗法治疗某病治愈率比较
疗 法 治愈数 未治愈数 合计 治愈率(%)
P (1 P)
SP
n
Sp
0.25 (1 0.25) 0.0153 1.53 % 800
阳性率的95 % 可信区间为:
0.25 1.96 0.0153 , 0.25 1.96 0.0153
( 0.22 , 0.28 ) 或
25 % 1.96 1.53 % , 25 % 1.96 1.53 %
=
0.20 0.80 (1/100 1/120)
确定P值,作结论:
2可.5以7查5认8t为界, 因两值而组表发0中.病0,5率υ>=P不∞>同0时.,0,1用,u药则0.0组P5<发=α1病,.9拒率6绝低, uH于00.,对01接照=受组H,1, 说明该草药有预防流感的作用
三、χ2 检验
χ2检验(Chi-square test)用途极广,这里 仅介绍它在分类变量资料中用于推断两 个或两个以上总体率(或构成比)之间 有无差别或有无关联的分析方法。
察结果如表3,问两种药物的疗效有无差别?
处理组
有表效3.
两种药物治疗脑动脉硬化的疗效
无效
合计
有效率(%)
胞磷胆碱
41(38.18) 3(5.82)
44
93.18
脑益嗪
18(20.82) 6(3.18)
24
75.00
合计
59
9
68
86.76
表3显示有一个理论频数T< 5,因此应用校正χ2检验。
(3)四格表资料χ2检验与 u 检验的关系
例4:某医生用国产呋喃硝胺治疗十二指肠球部溃疡,以甲氰咪 胍作对照组,结果如表5,问两种方法治疗效果有无差别?
表2. 两种药物治疗十二指肠球部溃疡的效果
处理组
愈合
未愈合
合计 愈合率(%)
呋喃硝胺组Leabharlann 54862
87.10
甲氰咪胍组
44
20
64
68.75
合计
98
28
126
77.78
假设检验过程:
设 H0 :1 2
地区 表9弥不漫同型地区地结方节性型甲状腺混肿合的型型别分布合计
某市 14791
4815
1509 21115
甲县
486
2
4
492
乙县
133
260
51
444
合计 15410
5077
1564 22051
检验方法同例10 。
甲 63
20
5
88
乙 35
31
14
80
合计 98
51
19
168
采用R×C表资料χ2检验。
设 H0:两所医院病例的梗塞部位的总体分布(构成比)相同 H1:两所医院病例的梗塞部位的总体分布(构成比)不同 α= 0.05
计算统计量χ2值
2
168
632 9888
202 51 88
52 1988
352 9880
(2)两个样本率比较
检验统计量计算公式如下:
u
p1 p2
p0 (1 p0 )(1/ n1 1/ n2 )
u p1 p 2 (1/ n1 1/ n2 ) / 2 p0 (1 p0 )(1/ n1 1/ n2 )
式中P0为合并阳性率,P0 =(X1 + X2)/(n 1 + n 2 )
例3 某中药研究所试用某种草药预防流感,观察用药 组和对照组(未用药组)的流感发病率,结果如下表,问两 组的流感发病率是否不同?
分类资料的统计推断
一、率的抽样误差与标准误
抽样研究所得的率同样存在抽样误差, 描述其大小的指标是率的标准误(standard error of proportion),其计算公式如下:
当 已知时 p
(1)
n
当 未知时
SP
P (1 P) n
二、总体率的估计和率的u检验
1、总体率的估计:
总体率的估计有两种方法,一是正态分布法,二是 查表法。 ★正态分布法 适用于样本较大,且p和/或1-p都不太小, 如np和n(1-p)都大于5时。计算公式为:
,
因而P <0.005 。按α=0.05水准,拒绝H0 ,可以认为不同人 群带菌率不同或不全相同。
例10 两个医院合作进行脑梗塞疗效试验中,各医院受试 病例的脑梗塞部位如表8所示,问两所医院病例的梗塞部位 的分布(构成比)是否不同?
表8 甲乙两医院病例的脑梗塞部位的分布
医院 皮层 基底节 混合型 合计
四格表资料即基本数据只有四个,为两行两列,如 两个率的比较。
检验统计量专用计算公式为:
2
ad bc2 n
(a b)(c d)(a c)(b d)
1)]
,[υ=(R-1)(C-
式中a , b , c , d 分别代表四个实际频数,n 为总例数;υ 为自由度,R为行数,C为列数。
(1)四个表资料χ2检验实例 :
α= 0.05
H1 :1 2
计算统计量χ2值:
2
54 20 8 44
62 6498
2126 28
6.13
确定P值,作结论:
查χ2界值表中,υ=
1
时,
χ2 0.05,1
=
3.84
,
χ2 0.01,1
=
6.63
,
因而
0.05 >P >0.01 , 即 P<α, 因而拒绝 H0 , 接受 H1 , 可以认为两组溃疡
p u sp , p u sp
★查表法 适用于小样本。利用样本含量n和阳性数x查 “百分率的可信区间”表获得。
例1 检查居民800人粪便中蛔虫阳性200人,阳性率为25 %,试求 当地居民粪便蛔虫阳性率的95 % 可信区间和99 % 可信区间。
公式:
p u sp , p u sp
其中, 即:
表7 某地流行性脑脊髓膜炎流行期不同人群带菌率
职 业 调查人数 阳性数 阴性数 阳性率(%)