计算可信区间
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
循证医学中常用可信区间得研究
作者:刘关键洪旗四川大学华西医院临床流行病学教研室成都610041
Study of statistical measures in evidence-based medicine
LIUGuan-jian,HONG Qi、( Department of Clinical Epidemiology,The West China Hospitalof SichuanUniversity, Chengdu,610041China)
ABSTRACTS: In this paper,we introduce meaning and purpose ofconfidence interval (CI)in Evidence-Based Medicine, For example, R RR、ARR、NNT、It's referance for user and doer ofEBM inChina、
Key words:Confidence interval;evidence-basedmedicine
在循证医学得研究或应用中,经常使用可信区间(confidence interval,CI)对某事件得总体进行推断。
可信区间就是按一定得概率去估计总体参数(均数或率)所在得范围,它就是按预先给定得概率(1-a,常取95%或99%)确定未知参数值得可能范围,这个范围被称为所估计参数值得可信区间或置信区间。
如95%可信区间,就就是从被估计得总体中随机抽取含量为n得样本,由每一个样本计算一个可信区间,理论上其中有95%得可能性(概率)将包含被估计得参数。
故任何一个样本所得95%可信区间用于估计总体参数时,被估计得参数不在该区间内得可能性(概率)仅有5%。
可信区间就是以上、下可信限为界得一个开区间(不包含界值在内)。
可信限(confidence limit,CL)或置信限只就是可信区间得上、下界值。
可信区间得用途主要有两个:
(1)估计总体参数,在临床科研工作,许多指标都就是从样本资料获取,若要得到某个指标得总体值(参数)时,常用可信区间来估计。
如率得可信区间就是用于估计总体率、均数得可信区间用于估计总体均数。
(2)假设检验,可信区间也可用于假设检验,95%得可信区间与a为0、05得假设检验等价。
若某研究得样本RR或OR得95%可信区间不包含1,即上下限均大于1或上下限均小于1时,有统计学意义(P<0、05);若它得RR或OR值95%可信区间包含1时,没有统计学意义(P> 0、05)。
再如某研究两疗效差值得95%可信区间不包含0,即上下限均大于0或上下限均小于0时,有统计学意义(P<0、05);两疗效差值得95%可信区间包含0时,两疗效无差别(P >0、05)。
各种指标得可信区间计算,最常采用正态近似法,其中标准误得计算就是其关键。
标准误就是由于抽样所致得样本与总体间得误差,用以衡量样本指标估计总体参数得可靠性,标准误越大,用样本估计总体得误差也就越大,反之就越小。
在数值资料(计量资料)中,标准误得大小与个体变异(s)成正比,与样本含量(n)得平方根成反比。
在分类资料(计数资料)中,标准误主要受样本含量(n)与某事件发生率(p)大小得影响,样本含量愈大,抽样误差愈小;某事件发生率愈接近于0、5,其抽样误差愈小,某事件发生率离0、5愈远(即发生率愈接近于0或1),抽样误差愈大。
可信区间得范围愈窄,样本估计总体得可靠性愈好;可信区间得范围愈宽,样本估计总体得可靠性愈差。
1.率得可信区间
总体率得可信区间可用于估计总体率、样本率与总体率比较,两样本率比较。
计算总体率得可信区间时要考虑样本率(p)得大小。
(1)正态近似法当n足够大,如n>100,且样本率p与1- p均不太小,且np与n(1-p)均大于5时,可用下式求总体率得1-a可信区间率得标准误:SE=p(1-p)/n
率得可信区间:p±uaSE = (p-uaSE ,p+uaSE)
式中ua以a查u值表,若计算95%得可信区间,这时u0、05=1、96,a=0、05。
例如:采用某治疗措施治疗60例某病患者,治愈24例,其治愈率为24/60=40%,该治愈率得
95%得可信区间为:
SE =p(1-p)/n= 0、4(1-0、4)/60=0、063
p±uaSE= (p-uaSE,p+uaSE)
= (0、4-1、96×0、063,0、4+1、96×0、063)
=(27、6%,52、4%)
该治愈率得95%得可信区间就是27、6%~52、4%。
(2)当样本率p<0、30或p>0、70时,对百分数采用平方根反正弦变换,即y=sin-1p 或sin y=p
当P从0~100%时,y从0~90(角度,以下略去),若以弧度表示则y从0~1、57(π/2)。
(Bartlett、MS建议当p=100%时,p=1-1/4n,当p=0时,p=1/4n)。
y得标准误,按角度计算sy=820、7/n ;若按弧度计算sy=1/(4n) ,总体率得1-a得可信区间按下式计算:(y-uasy ,y+uasy )
然后再按下式变换求出百分数表示得可信区间:
PL=sin2(y-uasy );PU=sin2(y+uasy )
例如:某医师调查某厂工人高血压病得患病情况,检查4553人,257人有高血压患病率为5、6446%,求该厂高血压患病率得95%可信区间?
本例u0、05=1、96,按上式计算:y=sin-10、056446 =0、239878,sy=1/(4×4553)=0、00741(以弧度计)则y得95%可信区间为:(0、239878-1、96×0、007410,0、239878+1、96×0、007410)=(0、2254, 0、2544)
而率得95%可信区间为:PL=sin2(0、2254)=0、0499;PU=sin2(0、2544)=0、0633
故该厂高血压患病率得95%可信区间为(4、99%,6、33%)。
2 RR得可信区间
相对危险度得RR(relative risk),应先计算RR,再求RR得自然对数值ln(RR),其ln(RR)得标准误SE(lnRR)按下式计算:
SE(lnRR)= 1 a + 1 c -1a+b - 1c+d = 1r1+1r2-1n1-1n2ln(RR)得可信区间为: ln(RR)±ua SE(lnRR)
RR得可信区间为: exp[ ln(RR) ±ua SE(lnRR)]
例如:某医师研究了阿斯匹林治疗心肌梗塞得效果,其资料见表1,试估计其RR得95%可信区间。
表1 阿斯匹林治疗心肌梗死得效果
table 2、theeffectof aspirin treat MI
组别有效无效合计
心梗组(MI) 15(r1)110125(n1)
对照组(Control)30(r2)90 120(n2)
合计(Total)45200245(N)
RR= p1p2 = r1/n1 r2/n2 =15/12530/120=0、48
ln(RR)=ln(0、48)=- 0、734
SE(lnRR)=1r1+1r2 -1n1-1n2=115+ 1 30 -1125 -1120 = 0、289
ln(RR)得95%可信区间为:
ln(RR) ±1、96SE(lnRR) = -0、734 ±1、96×0、289 = (-1、301,-0、167)RR得95%可信区间为:
exp[ln(RR) ±1、96 SE(lnRR)]= exp(-1、301,-0、167)=(0、272,0、
846)
该例RR得95%可信区间为0、272~0、846,其上、下限均小于1,可以认为阿斯匹林治疗心肌梗死有效。
3 OR得可信区间
由于队列资料得RR得1-a可信区间与OR得1-a可信区间很相近,且后者计算简便,因而临床医学可用OR得可信区间计算法来代替RR得可信区间得计算。
OR得可信区间得计算,应先计算OR,再求OR得自然对数值ln(OR),其ln(OR)得标准误SE(lnOR)按下式计算:SE(lnOR)=1/a+1/b+1/c +1/d
ln(OR)得可信区间为:ln(OR)±ua SE(lnOR)
OR得可信区间为: exp[ ln(OR)±uaSE(lnOR)]
例如:前述阿斯匹林治疗心肌梗塞得效果,试估计其OR得95%可信区间。
OR= 15×90 30×110 = 0、409
ln(OR)=ln(2、44)= -0、894
SE(lnOR)=1/a+1/b +1/c+1/d =1/30+1/90+1/15+1/110=0、347
ln(OR)得95%可信区间为:
ln(OR)±1、96 SE(lnOR)= -0、892±1、96×0、347= ( -1、573,-0、214)
OR得95%可信区间为:
exp[ ln(OR)±1、96SE(lnOR)]= exp(-1、573,-0、214) = (0、207,0、807)
该例OR得95%可信区间为0、207~0、807,而该例得RR得95%可信区间为0、272~0、846,可见OR就是RR得估计值。
4RRR得可信区间
RRR可信区间得计算,由于RRR=1-RR,故RRR得可信区间可由1-RR得可信区间得到,如上例RR=0、48,其95%得可信区间为0、272~0、846,故RRR=1-0、48=0、52,其95%得可信区间为0、154~0、728。
5ARR得可信区间
ARR得标准误为: SE= p1 (1-p1)n1+ p2 (1-p2)n2
ARR得可信区间: ARR±uaSE= (ARR-uaSE,ARR+uaSE)
例如:试验组某病发生率为15/125=12%,而对照组人群得发生率为30/120=25%,其ARR=25%-12%=13%,标准误为:
SE=p1 (1-p1)n1+p2(1-p2)n2= 0、12 (1-0、12)125 + 0、25 (1-0、25)120 =0、049
其95%得可信区间为:
ARR±uaSE =(ARR-uaSE,ARR+uaSE)
=(0、13-1、96×0、049,0、13+1、96×0、049)= (3、4%,22、6%)
该治愈率得95%得可信区间为3、4%~22、6%。
6NNT及可信区间
NNT可信区间得计算,由于无法计算NNT得标准误,可由ARR得95%得可信区间来计算。
因为NNT=1/ARR,故NNT得95%得可信区间为:
NNT95%可信区间得下限:1/(ARR95%可信区间得上限值)
NNT95%可信区间得上限:1/(ARR95%可信区间得下限值)
例如上述ARR得95%可信区间为3、4%~22、6%,其NNT得95%可信区间下限为:1/22、6%=4、4;上限为:1/3、4%=29、4,故该NNT得95%可信区间为4、4~29、4。
7 均数得可信区间
总体均数据得可信区间可用于估计总体均数、样本均数与总体均数比较、两均数比较。
计算
时当总体标准差未知时用t分布原理,而s已知时,按正态分布原理计算。
(1)均数得可信区间
通常,均数得95%得可信间可按下式计算:
X-±t0、05,n SE 即95%CI得下限为:X--t0、05,nSE,上限为:X-+t0、05,n SE
式中n为样本含量,X-、s分别为样本均数与标准差,SE为标准误,SE=s/n,ta,n得值可用自由度(n)与检验水准(a)查t界值表得到。
当样本含量足够大时,如n>100,其95%得可信间可按下式近似计算,n越大近似程度愈好。
X-±1、96SE即95%CI得下限为:X--1、96 SE,上限为:X-+ua SE
例:某医师测定某工厂144名健康男性工人血清高密度脂蛋白(mmol/L)得均数X-=1、3207,标准差s=0、3565,试估计该厂健康男性工人血清高密度脂蛋白总体均数得95%可信区间?本例n=144,X-=1、3207,s=0、3565,n=144-1,可用大样本公式X-±1、96s/n计算
下限为:X--1、96s/n=1、3207-(1、96)(0、3565)/144=1、2625
上限为:X-+1、96s/n = 1、3207 +(1、96) (0、3565)/144 =1、3789
故该例总体均数得95%可信区间为(1、2625 mmol/L, 1、3789mmol/L)。
(2)两个均数差值得可信区间
95%CI为:d±t0、05,n SE
即95%CI得下限为:d-t0、05,n SE上限为:d+t0、05,nSE
式中d为两均数之差,即d= |X-1-X-2| ;SE为两均数差值得标准误,其计算公式为:
SE= (n1-1)s12+ (n2-1) s22n1+n2-2 × (1n1 + 1 n2 )
例如:某研究得X-1=17、2,s1=6、4,n1=38,X-2=15、9,s2=5、6,n2=45,其均数得差值为:
d =| X-1-X-2| =17、2-15、9 = 1、3
其差值得标准误为:
SE= (38-1)′6、42+(45-1) ′5、6238+45-2 ×(1 38 +145) =1、317该例自由度n=38+45-2=81"80,故以自由度为80,a=0、05,查表得t0、05,80=1、99,将其代入95%CI得计算公式,得:
d±t0、05,n SE = 1、3±1、99×1、317= (-1、32,3、92)
参考文献:
1 David L、Sackett,W、Scott Richardson, William Rosenberg, etal、EVI
[M]TheDENCE-BASED MEDICINE-howto practice andteachEBM、
second edition、churchilllivingstone publish
house:Toronto,2000、
2王家良。
主编。
临床流行病学。
第2版。
上海:上海科技出版社,2001、
3 杨树勤。
主编。
卫生统计学。
第3版。
北京:人民卫生出版社, 1996、。