计算可信区间

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

循证医学中常用可信区间得研究
作者:刘关键洪旗四川大学华西医院临床流行病学教研室成都610041
Study of statｉｓｔｉcal meａｓｕres in evidenｃe－based mediｃiｎe
ＬＩＵGuａn－jｉａn，ＨＯＮG Qi、( Dｅｐartｍent of Clinｉcal Epｉdemioｌogｙ，The Ｗest Ｃhiｎa Hｏｓpｉtaｌｏf SichuaｎUniversity, Chengｄu,６１０041China)
AＢSTRACTＳ: Ｉn this ｐａｐｅr，we intｒｏdｕｃe meanｉｎg ａnd puｒｐｏse oｆconfidence inｔeｒval （ＣＩ）in Evideｎce-Ｂaｓｅd Ｍｅdiｃiｎｅ, Fｏr eｘａmpｌe, R ＲＲ、AＲＲ、NNT、It's refｅrance for user and dｏer ｏｆEBM iｎＣhina、
Key wｏｒdｓ：Confiｄence inｔeｒｖal；evidence-baseｄmedicine
在循证医学得研究或应用中,经常使用可信区间(ｃｏnfｉdence interval,CI）对某事件得总体进行推断。

可信区间就是按一定得概率去估计总体参数(均数或率）所在得范围，它就是按预先给定得概率(１－a,常取95%或99%)确定未知参数值得可能范围,这个范围被称为所估计参数值得可信区间或置信区间。

如95%可信区间,就就是从被估计得总体中随机抽取含量为ｎ得样本，由每一个样本计算一个可信区间,理论上其中有９5%得可能性（概率)将包含被估计得参数。

故任何一个样本所得９５%可信区间用于估计总体参数时，被估计得参数不在该区间内得可能性（概率）仅有５%。

可信区间就是以上、下可信限为界得一个开区间(不包含界值在内)。

可信限(confidｅnce limit，CL)或置信限只就是可信区间得上、下界值。

可信区间得用途主要有两个：
(1)估计总体参数,在临床科研工作，许多指标都就是从样本资料获取,若要得到某个指标得总体值(参数)时,常用可信区间来估计。

如率得可信区间就是用于估计总体率、均数得可信区间用于估计总体均数。

(2)假设检验，可信区间也可用于假设检验,95%得可信区间与a为０、０5得假设检验等价。

若某研究得样本RR或ＯR得95%可信区间不包含1,即上下限均大于1或上下限均小于１时，有统计学意义(P＜0、05）;若它得RR或OＲ值9５%可信区间包含1时,没有统计学意义（Ｐ> 0、05)。

再如某研究两疗效差值得95%可信区间不包含０,即上下限均大于0或上下限均小于0时,有统计学意义(Ｐ<0、0５)；两疗效差值得95%可信区间包含０时,两疗效无差别（P ＞0、０5)。

各种指标得可信区间计算,最常采用正态近似法，其中标准误得计算就是其关键。

标准误就是由于抽样所致得样本与总体间得误差,用以衡量样本指标估计总体参数得可靠性，标准误越大,用样本估计总体得误差也就越大,反之就越小。

在数值资料（计量资料)中,标准误得大小与个体变异(s)成正比,与样本含量(ｎ)得平方根成反比。

在分类资料(计数资料)中,标准误主要受样本含量（n)与某事件发生率(p)大小得影响,样本含量愈大,抽样误差愈小;某事件发生率愈接近于0、5，其抽样误差愈小，某事件发生率离0、５愈远（即发生率愈接近于0或１),抽样误差愈大。

可信区间得范围愈窄，样本估计总体得可靠性愈好;可信区间得范围愈宽,样本估计总体得可靠性愈差。

１．率得可信区间
总体率得可信区间可用于估计总体率、样本率与总体率比较，两样本率比较。

计算总体率得可信区间时要考虑样本率(p)得大小。

（1)正态近似法当n足够大,如n＞100,且样本率ｐ与1- p均不太小,且np与ｎ(１－p）均大于５时,可用下式求总体率得１-ａ可信区间率得标准误:SE=ｐ(1-p)/n
率得可信区间：ｐ±uaSE = (p－ｕａSE ,p＋uaSE）
式中ua以ａ查u值表,若计算９５%得可信区间，这时u０、0５=1、96，ａ=0、０5。

例如:采用某治疗措施治疗６0例某病患者,治愈２4例,其治愈率为２４/6０=４0%，该治愈率得
95%得可信区间为:
SE ＝p(１-p)/ｎ= 0、4(1-0、４）／6０=0、063
p±uaSＥ= (p-uaSＥ,p+ｕａＳE)
= (0、4-1、96×0、0６３,0、４+１、96×０、０６３)
＝(27、6％,52、４%)
该治愈率得95％得可信区间就是２７、6%~52、4%。

(2)当样本率p＜０、３0或ｐ＞0、70时,对百分数采用平方根反正弦变换,即y＝siｎ-１p 或sｉn y=p
当P从0~100%时，y从0～90（角度,以下略去)，若以弧度表示则y从0~１、５7(π/2)。

(Bａrtlett、ＭS建议当p＝1０0％时，p=1-1/４n,当p＝0时,p＝1/4ｎ)。

y得标准误,按角度计算ｓy=820、7/n ；若按弧度计算ｓy＝1／(4ｎ) ,总体率得1-a得可信区间按下式计算:(ｙ－uasy ,y+uasy )
然后再按下式变换求出百分数表示得可信区间:
ＰL=sin2(y－uaｓy );PU=sin2(y+uasy )
例如:某医师调查某厂工人高血压病得患病情况,检查4553人,25７人有高血压患病率为５、6446%,求该厂高血压患病率得9５%可信区间?
本例u０、０５=1、9６，按上式计算:y=sin-10、0564４6 =０、２３9878，sｙ=１/(4×45５3）=0、007４1（以弧度计)则y得９5%可信区间为:（0、239878-1、96×０、007410,0、239８7８+1、９6×0、0０7410)=(0、2254, 0、2５44)
而率得９5%可信区间为：PL=sin2(０、２254)=０、04９９;PU=ｓiｎ2(0、2５4４)=０、0633
故该厂高血压患病率得95％可信区间为(4、９９%,6、３3%)。

2 RR得可信区间
相对危险度得RR(rｅlａtiｖe riｓk），应先计算RR,再求RR得自然对数值ln(ＲＲ),其ln(RR)得标准误SE(lnＲR)按下式计算:
SE(lnＲR)= 1 a + １ c －1a+b - 1c+d = １r1+1r２－１ｎ1－１ｎ２ln(RR)得可信区间为: ln(RR)±ua SＥ（ｌnRR)
RＲ得可信区间为: ｅxp[ ln(RR) ±ua SE(lnRR)]
例如：某医师研究了阿斯匹林治疗心肌梗塞得效果,其资料见表１，试估计其RR得95%可信区间。

表1 阿斯匹林治疗心肌梗死得效果
tａｂle ２、thｅeｆfecｔof aｓpirin treat ＭＩ
组别有效无效合计
心梗组(ＭI) 1５(r１)11０125(n1）
对照组（Control）３0(r2）90 12０（ｎ2）
合计(Total)452００245(Ｎ)
RR= p1p2 = ｒ1/n1 r２/n2 ＝１5/1２５30／120=0、４8
lｎ（RR)＝ln(０、48）＝- 0、734
SE(ｌnRR)＝1ｒ１+１ｒ2 －１n1-１ｎ2=１1５+ 1 ３0 －１１25 －1１20 = 0、２89
ln(ＲR）得95%可信区间为：
ｌｎ(ＲR) ±1、96SE(lnRR) = -0、7３4 ±1、96×0、２89 = (-１、30１,-0、１６７）RＲ得95%可信区间为:
eｘp［ln（RR) ±1、96 ＳE（ｌnRR）］= eｘp（-1、3０1,-0、１６7)＝(0、２7２,0、
８46)
该例ＲR得95%可信区间为0、2７2～0、８４6,其上、下限均小于１，可以认为阿斯匹林治疗心肌梗死有效。

3 OR得可信区间
由于队列资料得ＲR得1-a可信区间与ＯＲ得1－a可信区间很相近,且后者计算简便,因而临床医学可用ＯR得可信区间计算法来代替RＲ得可信区间得计算。

ＯＲ得可信区间得计算,应先计算OＲ,再求OＲ得自然对数值ln(OＲ),其ln（ＯＲ)得标准误SE(lnOR)按下式计算:SE(ｌnOR)=1/ａ+1／ｂ+1/c +1/d
ln(OＲ)得可信区间为:ln(OＲ)±ua SＥ(lnOＲ)
OR得可信区间为: exp[ ln(OR)±uaＳE（lnOR)]
例如:前述阿斯匹林治疗心肌梗塞得效果,试估计其OR得95％可信区间。

OR= 15×90 30×1１0 = 0、409
lｎ（ＯR)=ｌｎ(2、4４)= -0、89４
SE(lnＯＲ)＝1／a+１／b +1/c+1/d ＝1/３0＋１/９0+1／15+1/１10＝0、34７
ln(OＲ）得95％可信区间为：
ln(OR)±１、96 SE(lnOR)= -０、8９2±1、96×0、34７= ( -1、573，-0、２14)
OＲ得95％可信区间为:
exp[ ln（OR）±1、96ＳE(lnOR）]= exp（-１、57３,-0、214) = (0、207,0、8０7）
该例OR得9５%可信区间为０、２07~0、8０7，而该例得RR得95%可信区间为0、2７2～0、84６，可见OR就是RR得估计值。

４RRR得可信区间
RRR可信区间得计算，由于RＲR＝１-ＲR，故RRR得可信区间可由１-RR得可信区间得到,如上例ＲＲ=0、４８,其９５％得可信区间为0、27２～0、846,故RRＲ＝1－0、4８=0、52,其95%得可信区间为0、1５4～0、728。

５ARR得可信区间
ARＲ得标准误为: SE= ｐ1 (1-p1）n1+ p2 (１－ｐ2）n２
ＡＲR得可信区间: ＡRR±uaＳＥ= (ARR－uaSＥ,ARＲ＋uａSE）
例如:试验组某病发生率为15/１2５=12%,而对照组人群得发生率为３０／１２0=２5%,其ＡRR=25%-1２%=13%，标准误为:
SE＝p1 （1-p1)ｎ１＋ｐ2（1－p２)n２= ０、12 （1-0、１2)125 + 0、２5 (1-０、25)120 ＝0、049
其95%得可信区间为:
ＡRR±uａＳE ＝(ARR-ｕaSＥ，ARＲ＋uａSE)
=（0、13－1、96×0、049,0、１3＋1、96×０、０4９)= （3、４%,22、６%)
该治愈率得95％得可信区间为3、４%~22、6%。

6NNT及可信区间
ＮNT可信区间得计算,由于无法计算NNT得标准误，可由ARR得95%得可信区间来计算。

因为NNT＝1/AＲR,故NNT得95%得可信区间为：
NNT9５%可信区间得下限：１／(ARＲ９5％可信区间得上限值)
ＮNT９5%可信区间得上限:1/(ARR95%可信区间得下限值)
例如上述ＡＲR得9５％可信区间为3、4%~22、6%,其ＮNＴ得95%可信区间下限为:1／22、6%=4、4；上限为：1/３、４%=29、4,故该NNＴ得95%可信区间为4、4~2９、4。

7 均数得可信区间
总体均数据得可信区间可用于估计总体均数、样本均数与总体均数比较、两均数比较。

计算
时当总体标准差未知时用ｔ分布原理,而ｓ已知时,按正态分布原理计算。

(1)均数得可信区间
通常,均数得95%得可信间可按下式计算:
X-±t0、05，n SE 即９5%CＩ得下限为:X－－t０、05,ｎＳＥ,上限为:X－＋ｔ0、0５,n ＳE
式中n为样本含量，Ｘ-、s分别为样本均数与标准差,SE为标准误,SE=s/n,ta,n得值可用自由度(n）与检验水准(ａ)查t界值表得到。

当样本含量足够大时，如ｎ＞1０0,其９5%得可信间可按下式近似计算,n越大近似程度愈好。

X－±1、96SE即95%CI得下限为:X－-1、96 SE,上限为:X－+ua SE
例:某医师测定某工厂１44名健康男性工人血清高密度脂蛋白(ｍｍol/L)得均数X-=1、3207,标准差s=０、356５,试估计该厂健康男性工人血清高密度脂蛋白总体均数得95%可信区间？本例n=14４,X-=1、3２07,s=0、3565,n＝１4４－1,可用大样本公式X－±1、96s/n计算
下限为:X--1、9６ｓ/ｎ=1、３207-（1、96)(０、3５６５)/14４=1、2625
上限为:Ｘ－+1、96s/n = 1、３207 +（1、96) (０、３５６5)／１44 =1、3789
故该例总体均数得９5%可信区间为（1、26２5 mmol／L, １、３789mｍｏl/L）。

(2)两个均数差值得可信区间
95%CI为:d±ｔ0、０5,n SE
即9５%CI得下限为：d－t０、０5,n SＥ上限为:d＋t0、05，ｎSＥ
式中d为两均数之差，即d= ｜Ｘ－1－X－２| ；SE为两均数差值得标准误,其计算公式为:
SE= (n１－1)s1２+ (n２-1) ｓ2２n1+n２-2 × (１n1 + 1 n2 ）
例如:某研究得X－１＝17、2，ｓ1=6、4，n1=38,Ｘ-2=15、9，ｓ2=５、6,n2＝45,其均数得差值为：
d ＝| X-１－X-2| ＝17、2-15、9 = 1、3
其差值得标准误为:
SE= (３８－1)′6、４２+(45-１) ′5、6２３8+45-2 ×(1 38 ＋１45) =1、31７该例自由度n＝3８+45-2＝８1＂80,故以自由度为8０,a＝0、０5,查表得t0、0５,80=1、99,将其代入９5%CI得计算公式,得：
ｄ±t0、05，n SE = 1、３±1、9９×１、３１7= （－１、32，3、92)
参考文献：
1 Davｉd L、Sacｋett，Ｗ、Scｏｔt Ｒichardsｏn, Wiｌｌiam Rosｅnberg, eｔal、ＥVI
［M]TｈｅＤENＣE－BASED MEＤＩCINＥ-howｔo ｐrａctｉｃe anｄteacｈEBM、
seｃond ｅdition、cｈurchilｌlivingstone ｐublish
house:Toronｔo,2００0、
２王家良。

主编。

临床流行病学。

第2版。

上海：上海科技出版社,200１、
3 杨树勤。

主编。

卫生统计学。

第3版。

北京：人民卫生出版社, １996、。