医学研究关于样本例数选择

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

医学研究的样本例数
读者须知
在医学研究中样本例数的确定是一个难点，医学统计学家认为样本含量的确定有两种方法：公式法和查表法，公式法和查表法本质一样，查表法是统计学家由公式做出的，而公式法需要研究者自己做，因为医学研究中尚有不少问题还搜索不到相应的计算公式来确定样本例数，本书搜集到的公式也十分有限，那么通过搜索文献来估计样本例数也是读者需要学习的一种方法。

须知，不存在无限定条件的样本例数。

现行统计教材中的样本例数没有特别强调这一点，以导致使用时，常提出如下问题：“了解吸烟是否是肺癌的危险因素，需要调查多少人？”，类似这样的问题是没人能回答出的。

医学研究中样本例数都是建立在一组限定条件之下的样本例数，若这一组限定条件改变，那么样本例数的值随之改变。

简言之，样本例数是这一组限定条件的函数。

这种函数关系具体由计算样本例数的公式表述。

那么，确定公式等号右端的各参数就变成了计算样本例数的前提。

根据此思路我们设计了一个确定样本例数的流程图（见下页），同时，这个流程图也是我们撰写本书具体内容和阅读本书的思路。

这个小册子中的例题均来自各种卫生统
计学的教材和相关著作，其本质没有变化，但读起来却更加符合人们的认知习惯，你会感觉到更容易读懂了。

本书由一附院医学统计咨询室集体讨论，具体由孙奇执笔撰写和排版，几经修订，历时超过百天。

尽管如此，鉴于我们知识的局限性，也只能做到抛砖引玉，而且书中错误肯定难免。

欢迎读者不吝指正，我们将深表谢意！
样本例数估计流程图
目录
4 1.两样本率比较的数··································
6 2.多个样本率比较的数······························
8 3.两样本均数比较的数······························
10 4.多个样本均数比较的数·····························
12 5.诊断试验的样数·········································
13 6.现况研究的样数 (13)
15 7.病例对照研究的数 (15)
17 8.队列研究的样数 (17)
19 9.多元统计的样数 (19)
10.
20他······················································
21 11.表·······························································
1 两样本率比较的样本例数
提出专业问题
某课题的研究目的是比较两种药物治疗乙型肝炎后表面抗原HBsAg 的改善情况，问两组各需要乙肝患者多少名？转化为统计问题
上述研究所对应的统计问题为：两样本率比较的样本例数选择相应的公式
两样本率比较的样本例数公式（）［1］139
2
212
2221111
2112/)(]/)1(/)1())(1(2[p p Q p p Q p p Z Q Q p p Z N a --+-++-=
--β
确定公式等号右端各参数
1.公式中a Z 、βZ 、P 、1P 、2P 、1Q 、2Q 的确定方法如下： (1)a Z 的确定：统计学家建议05.0=a ，则96.12/05.0=Z 。

(2)βZ 的确定：统计学家建议10.0=β，则28
2.101.0=Z 。

预试验如下：一个研究组将随机抽取的乙肝患者分为2组，试验者要求两组例数不等，其中甲药组的样本含量占55％，乙药组的样本含量占45％；通过试验后测得甲药的转阴率为60％，乙药的转阴率为75％。

(3)1Q 、2Q 的确定：一般由研究者根据试验需要规定。

(4) 样本率1P 、2P ：一般由研究者根据预试验或查文献来估计，见前述预试验：
60.01=P 、75.02=P 。

(5)P 的确定：2211P Q P Q P +=＝（×+×）＝。

计算求出样本例数
将96.12/05.0=Z 、282.101.0=Z 、55.01=Q 、45.02=Q 、60.01=P 、75.02=P 、
6675.0=P 代入公式（）后可得411≈N 名。

结论
比较两种药物治疗乙型肝炎后表面抗原HBsAg 的转阴情况，欲使保持置信水平为 95％，检验功效为，两组共需要411名乙肝患者。

其中甲药组需要 22641155.011=⨯==N Q n 名；
乙药组需要 18541145.022=⨯==N Q n 名。

参考文献
本文参考文献
1.方积乾主编．卫生统计学，第5版．北京：人民卫生出版社，2003．139
其他参考文献
1.颜虹主编.医学统计学，供8年制及7年制临床医学等专业用．北京：人民卫生出版社，2005，254
2.周利锋，高尔生主编．卫生研究中样本含量的确定.上海：复旦大学出版社、上海医科大学出版社联合出版，2001，11
3.孙振球主编.医学统计学，第二版研究生教学用书．北京：人民卫生出版社，2005，626
4.王仁安主编.要医学实验设计与统计分析．北京：北京大学医学出版社，1999，23
5.徐天和主编.医学研究统计设计分册.北京：人民卫生出版，2004，144
6.马斌荣主编.医学科研中的统计方法，第三版．北京：科学出版社，2005，142
2 多个样本率比较的样本例数
提出专业问题
某课题的研究目的是比较三种矫治近视眼方法的效果有无差异，问各法需观察多少例？
转化为统计问题
上述研究所对应的统计问题为：多个样本率比较的样本例数选择相应的公式
多个样本率比较的样本例数公式（）［1］148
2
min 1
max 1
)
sin 2sin
2(2p p n ---=
λ
确定等号右端各参数
1.公式中λ、m ax P 、m in P 的确定方法如下： (1)α 的确定：统计学家建议05.0=a 。

(2)β
的确定：统计学家建议10.0=β
预试验如下：防疫站在某小学采用三种方法矫治近视眼，治疗后得到A 法有效率为％，B 法为％，C 法为％。

(3) λ的确定：查附表1得， 65
.122,10.0,05.01,,==-λλβk a 。

(4) m ax P 、m in P 的确定：分别为最大率和最小率，由研究者根据预试验或查文献来估计，3778.0max =P 、1875.0min =P 。

计算求出样本例数
将65.12=λ、3=k 、3778.0max =P 、1875.0min =P 代入公式（）后可得138≈n 名。

结论
比较三种矫治近视眼方法的效果即采用三种不同的方法矫治近视眼，欲使保持置信水平为95％，检验功效为，每组各需要138名患者，三组共需要414名患者。

参考文献本文参考文献
1.杨树勤主编.卫生统计学，第3版.北京：人民卫生出版社，1992．148 其它参考文献
1.颜虹主编.医学统计学，供8年制及7年制临床医学等专业用．北京：人民卫生出版社，2005，255
2 孙振球主编.医学统计学，第二版研究生教学用书．北京：人民卫生出版社，2005，627
3.徐天和主编.医学研究统计设计分册.北京：人民卫生出版，2004，147
3 两样本均数比较的样本例数
提出专业问题
某课题的研究目的是欲比较黄芪与生血散对粒细胞减少症的疗效，问每组需要观察多少例？转化为统计问题
上述研究所对应的统计问题为：两样本均数比较的样本例数选择相应的公式
两样本均数比较样本例数公式（）［1］146
2
2
2)(δ
σ
βZ Z N
a +=
()121
1
--+Q Q
确定等号右端各参数
1.公式中 a Z 、βZ 、σ、δ、1Q 、2Q 的确定方法如下： (1) a Z 的确定：统计学家建议05.0=a ，则96.12/05.0=Z 。

(2) βZ 的确定：统计学家建议20.0=β，则84
2.020.0=Z 。

预试验如下：一个研究组将随机抽取的粒细胞减少症的病例平均分为两组，分别用黄芪和生血散治疗后测得，黄芪组平均增加粒细胞9101⨯个／Ｌ，生血散组平均增加粒细胞
9102⨯个／Ｌ，合并标准差为9108.1⨯=σ个／Ｌ。

(3) σ的确定：此处标准差为由公式2/)(2
221S S +=σ
[2]32计算得出。

(4) δ的确定：见前述预试验，112=-=δ （L /109个⨯）。

(5) 1Q 、2Q 的确定：见前述预试验，5.01=Q 、5.02=Q 。

计算求出样本例数
将96.12/05.0=Z 、842.020.0=Z 、9108.1⨯=σ、9101⨯=δ、5.01=Q 、5.02=Q 代入公式（）后可得80≈N 名。

结论
比较黄芪与生血散对粒细胞减少症的疗效，欲使保持置信水平为95％，检验功效为，共需要80名患者。

其中黄芪组需要 40805.011=⨯==N Q n 名；
生血散组需要40805.022=⨯==N Q n 名。

参考文献本文参考文献
1.方积乾主编．卫生统计学，第5版．北京：人民卫生出版社，2003．146
2.周利锋，高尔生主编．卫生研究中样本含量的确定.上海：复旦大学出版社、上海医科大学出版社联合出版，2001，32
其他参考文献
1.颜虹主编.医学统计学，供8年制及7年制临床医学等专业用．北京：人民卫生出版社，2005，257
2.周利锋，高尔生主编．卫生研究中样本含量的确定.上海：复旦大学出版社、上海医科大学出版社联合出版，2001，31-33
3.孙振球主编.医学统计学，第二版研究生教学用书．北京：人民卫生出版社，2005，625
4.王仁安主编.要医学实验设计与统计分析．北京：北京大学医学出版社，1999，22
5.徐天和主编.医学研究统计设计分册.北京：人民卫生出版，2004，143
6.马斌荣主编.医学科研中的统计方法，第三版．北京：科学出版社，2005，140
7.徐端正主编.生物统计学在实验和临床药理学中的应用．北京：科学出版社，2004，50
4 多个样本均数比较的样本例数
提出专业问题
某课题的研究目的是比较三种方案治疗血红蛋白不满100g /L 的婴幼儿贫血患者后，血红蛋白增的变化有无差异，问三组各需要观察多少例？转化为统计问题
上述研究所对应的统计问题为：多个样本均数比较的样本例数选择相应的公式
多个样本均数比较样本例数公式（）［1］146
)]1/()(/[)/(222--∑∑=k X X k S n i i ψ
确定等号右端各参数
1.公式中ψ、i S 、k 、X 、i X 的确定方法如下： (1)α 的确定：统计学家建议05.0=a 。

(2)β
的确定：统计学家建议10.0=β。

(3) ψ的确定：查附表2得，52
.2,2,10.0,05.0,1,,==∞∞-ψψβk a 。

预试验如下：一个研究组将随机抽取的血红蛋白不满100g /L 的婴幼儿贫血患者平均分为三组，经各治疗方案治疗后血红蛋白增加的均数分别为L 、L 、L ，标准差为L 、L 、L 。

(4) i X 、i S 的确定：分别为第i 样本的均数和标准差的估计值，由研究者根据预试验或查文献来估计。

(5) k 的确定：为组数，本例题3=k 。

(6) X 的确定： 0.143/)4.102.131835(/)(321=++=++=k X X X X 。

计算求出样本例数
将52.2=ψ、3=k 、0.14=X 、5.181=X 、2.132=X 、4.103=X 、8.111=S 、
4.132=S 、3.93=S 代入公式（）后可的51≈n 名。

结论
比较三种方案治疗血红蛋白不满100g /L 的婴幼儿贫血患者后，血红蛋白均数有无差异，欲使保持置信水平为95％，检验功效为，每组各需要51名患者，三组共需要153名患者。

参考文献
本文参考文献
1.杨树勤主编.卫生统计学，第3版.北京：人民卫生出版社，1992．146
其他参考文献
1 .颜虹主编.医学统计学，供8年制及7年制临床医学等专业用．北京：人民卫生出版社，2005，258
2 .孙振球主编.医学统计学，第二版研究生教学用书．北京：人民卫生出版社，2005，625
3 .徐天和主编.医学研究统计设计分册.北京：人民卫生出版，2004，145
5 诊断试验的样本例数
提出专业问题
某课题的研究目的是为了解B 超诊断肝硬化的临床价值，每组各需要多少例患者？转化为统计问题
上述研究所对应的统计问题为：诊断试验的样本例数选择相应的公式
诊断试验的样本例数公式（）[1]288
()p p u n a -⎪⎭
⎫
⎝⎛=12
δ
确定等号右端各参数
1.公式中u 、δ、p 的确定方法如下：
(1) a u 的确定：统计学家建议05.0=a ，则96.12/05.0=Z 。

(2) σ的确定：由研究者根据预试验或查文献来估计。

一般定在～之间。

(3) p 的确定： %75=灵敏度p 、%55=特异度p 。

计算求出样本例数
将96.105.0=u 、08.0=δ、%75=灵敏度p 代入公式（）后可的113≈病例N 名。

将96.105.0=u 、08.0=δ、%55=特异度p 代入公式（）后可的149≈对照N 名。

结论
为了B 超诊断肝硬化的临床价值，并要求灵敏度75％，特异度55％，而保持置信水平为95％，病例组和对照组共需要262名患者，其中病例组需要113名，对照组需要多少149名。

参考文献本文参考文献
1.施侣元主编.流行病学，第5版.北京：人民卫生出版社，2003．
6 现况研究的样本例数
现况研究又称横断面研究，是指在某个时点或很短的时间内进行的调查研究，现况研究的特点是研究因素和观察指标都在同一个时间点（而病例对照研究与队列研究都不是如此）。

现况研究的目的是要了解某个时点的现状，在医学中通常用于①描述某种疾病或健康状况的总体特征；②探讨疾病或健康状况与某些因素在同一个时间点的联系；③评价预防措施的效果等。

横断面研究有很多类型，如普查、抽样调查等。

根据研究目的和资料类型的不同可采取不同的统计方法来处理，比如①可以采用频率、平均数等指标描述疾病在时间、空间和人群即三间中的分布特征；②可以用相关、回归、2χ检验、Logistic 回归等来推断疾病与某些因素的联系等。

［1］307
提出专业问题
问题①有课题研究某地区，平均每月每位社区医生的家访次数，至少需要调查多少名医生？
问题②为了在全国作生育率的调查根据资料已知全国妇女现阶段峰值年龄生育率估计值。

按单纯随机抽样，估计峰值年龄妇女需要多少人？转化为统计问题
问题①所对应的统计问题为：连续型变量总体均数估计的样本例数问题②所对应的统计问题为：0-1变量总体概率估计的样本例数选择相应的公式
问题①选择公式:连续型变量总体均数估计的样本例数公式（）
[1]289
2
2/⎪⎭
⎫
⎝⎛=εV Z n a
其中：μσ/=V 或用X S /估计
问题②选择公式:0-1变量总体概率估计的样本例数公式（）[2]139
2
2
2/)
1(δP P Z n a -=
确定等号右端各参数
1.公式中Z 、ε和V 的确定方法如下：
(1)Z 的确定：统计学家建议通常取05.0=a ，则96.12/05.0=Z 。

(2)相对误差ε的确定：由研究者根据问题的背景自行规定，例如可以取、、等。

(3)变异系数V 的确定：可以由文献或预调查的资料来估计。

问题①预调查如下：一个研究组从社区医疗机构的名单中随机抽取90名社区医生进行调查，发现他们一个月内家访平均次数为次，标准差为次，可得出变异系数
712.089.4/48.3==V ；其中有40位具有大学学历，可得出444.090/40==P 。

问题②预调查如下：为了在全国作生育率的抽样调查，经查阅文献获得，我国妇女现阶段峰值年龄生育率P 在上下波动，允许误差δ为（δ=），若定检验水准为，试按单纯随机抽样，估计峰值年龄妇女样本例数。

2.公式（）中Z 、δ和P 的确定方法如下：
(1)Z 的确定：统计学家建议通常取05.0=a ，则96.12/05.0=Z 。

(2)允许误差δ的确定： δ是由研究者根据问题的背景，通过预试验、查阅文献、专家意见来确定,一般统计学家认为允许误差πδ-=P 。

也有统计学家根据经验将δ定，，等若定位为，若近似的把22/=a Z ，则公式可简化为p
p
n -=1400,该公式在实际工作中常常被使用。

(3)P 的确定：一般总体概率Ｐ通过预试验或查阅文献获得。

计算求出样本例数
问题①中将96.12/05.0=Z 、2.0=ε、712.0=V 代入公式（）后可得491=n 名。

问题②中将3.0=p 、015.0=δ，96.12/05.0=Z 代入公式（）后可得37332=n 名。

结论
了解某地区平均每月每位社区医生的家访次数，欲使相对误差不超过20％，而保持置信水平为95％时，至少需要调查49名社区医生。

为了调查全国峰值年龄妇女生育率，欲使允许误差不超过％,而保持置信水平为95%时，需要调查3733名峰值年龄妇女。

参考文献本文参考文献
1.方积乾主编．卫生统计学，第5版．北京：人民卫生出版社，2003,287-301
2.杨树勤主编．卫生统计学，第三版．北京：人民卫生出版社，1992,139
7 病例对照研究的样本例数
病例对照研究是以现在确诊的患有某特定疾病的病人作为病例，以不患有该病但具有可比性的个体作为对照，通过询问，实验室检查或复查病史，搜集既往各种可能的危险因素的暴露史，测量并比较病例组与对照组中各因素暴露比例，经统计学检验，若两组差别有意义，则可以认为因素与疾病之间存在着统计学上的关联，在评估各种偏倚队研究结果的影响之后，在借助病因推断技术，推断出某个或某些暴露因素时疾病的危险因素，而达到探索和检验疾病危险因素假说的目的。

提出专业问题
某课题的研究目的是拟了解吸烟是否是肺癌的危险因素，需要调查多少人？转化为统计问题
上述研究所对应的统计问题为：病例对照研究的样本例数选择相应的公式
病例对照研究的样本例数公式（）[1]91
()()
2
012
/2p p u u q p n a -+=β
确定等号右端各参数
1.使用公式（）。

公式中a u 、βu 、p 、q 、1p 、0p 的确定方法如下： (1)a u 的确定：统计学家建议05.0=a ，则96.105.0=u 。

(2)βu 的确定：统计学家建议10.0=β，则28
2.110.0=u 。

(3)0p 的确定：
(4)1p 的确定：由预试验测得0p 后，代入公式
)]1(1/[001-+=RR p RR p p ＝333.0)12.01/()22.0(=⨯+⨯。

(5)p 的确定：由预试验测得0p 、1p 后，代入公式
2/)(01p p p +=＝267.02/)333.02.0(=+。

(6)q 的确定：p q -=1＝733.0267.01=-。

计算求出样本例数
将96.105.0=u 、282.110.0=u 、2.00=p 、333.01=p 、267.0=p 、733.0=q 代入公式（）后可得232=n 人。

结论
为了了解吸烟与肺癌的关系，欲使置信水平保持95％，检验功效为，05.0=a 双侧、
10.0=β，病例组和对照组各需要调查232人，两组共需要调查464人。

参考文献本文参考文献
1.施侣元主编.流行病学，第5版.北京：人民卫生出版社，2003．91 其他参考文献
1.颜虹主编.医学统计学，供8年制及7年制临床医学等专业用．北京：人民卫生出版社，2005，260-261
2.周利锋，高尔生主编．卫生研究中样本含量的确定.上海：复旦大学出版社、上海医科大学出版社联合出版，2001，15-16
3.徐天和主编.医学研究统计设计分册.北京：人民卫生出版，2004，149
8 队列研究的样本例数
队列研究是将一个范围明确的人群按是否暴露于可疑因素及暴露程度分为不同的亚组，追踪其各自的结局，比较不同亚组之间结局的差异，从而判定暴露因子与结局之间有无因果关联大小的一种观察研究方法。

提出专业问题
某课题的研究目的是欲了解孕妇服用于某种药物与婴儿先天性心脏病之间的联系,需要调查多少人？转化为统计问题
上述研究所对应的统计问题为：队列研究的样本例数选择相应的公式
队列研究的样本例数公式（）[1]68
()()
2
011
1002p p q p q p Z pq Z n a
-++=
β
确定等号右端各参数
1.公式中a Z 、βZ 、q 、0p 、1p 、0q 、1q 的确定方法如下： (1)a Z 的确定：统计学家建议05.0=a ，则96.12/05.0=Z 。

(2)a Z 的确定：统计学家建议10.0=β，则28
2.110.0=Z 。

(3)1p 和0p 的确定： 1p 与0p 分别代表暴露组与对照组的预期发病率。

(4)p 的确定：p 为两个发病率的平均值。

(5)q 的确定：p q -=1。

计算求出样本例数
将96.105.0=Z 、282.110.0=Z 、007.00=p 、333.01=p 、267.0=p 、733.0=q 代入公式（）后可的2321=n 人。

结论
为了了解吸烟与肺癌的关系，并要求05.0=a 双侧、10.0=β ,病例组和对照组各需要调查232人，两组共需要调查464人。

参考文献
本文参考文献
1.施侣元主编.流行病学，第5版.北京：人民卫生出版社，2003．68
其他参考文献
2.颜虹主编.医学统计学，供8年制及7年制临床医学等专业用．北京：人民卫生出版社，2005，261-262
3.周利锋，高尔生主编．卫生研究中样本含量的确定.上海：复旦大学出版社、上海医科大学出版社联合出版，2001，18
4.徐天和主编.医学研究统计设计分册.北京：人民卫生出版，2004，148
9 多元统计
1.“多元线性回归中，有学者认为n至少应是方程中自变量个数m的5～10倍”［1］253
2.用于多元logistic回归和比例风险分析的有用的经验方法是模型中的每一自变量至少需要出现10个结局。

[2]103
参考文献
1.孙振球主编.医学统计学，供研究生用.北京：人民卫生出版社，200
2.
2.姚晨等主译.多变量分析临床实用指南.北京：中国科学技术出版社，2000.
10 其他
随机区组设计的多组样本均数比较的样本例数
1.颜虹主编．医学统计学，供8年制及7年制临床医学等专业用．北京：人民卫生出版社，2005，258
重复测量研究设计的样本例数
1.颜虹主编．医学统计学，供8年制及7年制临床医学等专业用．北京：人民卫生出版社，2005，259
直线回归与相关的样本例数
1.颜虹主编．医学统计学，供8年制及7年制临床医学等专业用．北京：人民卫生出版社，2005，260
2.孙振球主编，医学统计学，第二版研究生教学用书．北京：人民卫生出版社，2005，467
生存分析的样本例数
1.颜虹主编．医学统计学，供8年制及7年制临床医学等专业用．北京：人民卫生出版社，2005，262-264
阴性结果的检验效能
两样本均数比较的检验效能
1.倪宗瓒主编.卫生统计学.第4版.北京：人民卫生出版社,200，61
2.倪宗瓒主编.卫生统计学.第二版.北京：人民卫生出版社,1997，75
配对试验和交叉试验的检验效能
1.倪宗瓒主编.卫生统计学.第4版.北京：人民卫生出版社,2000，161
2.倪宗瓒主编.卫生统计学.第二版.北京：人民卫生出版社,1997，74
样本均数与总体均数比较的检验效能
1.倪宗瓒主编.卫生统计学.第4版.北京：人民卫生出版社,2000，161
2.倪宗瓒主编.卫生统计学.第二版.北京：人民卫生出版社,1997，77
两样本率比较的检验效能
1.倪宗瓒主编.卫生统计学.第4版.北京：人民卫生出版社,2000，162
2.倪宗瓒主编.卫生统计学.第二版.北京：人民卫生出版社,1997，75
配对分类资料的检验效能
1.倪宗瓒主编.卫生统计学.第4版.北京：人民卫生出版社,2000，162
2.倪宗瓒主编.卫生统计学.第二版.北京：人民卫生出版社,1997，76
两相关系数比较的检验效能
1.倪宗瓒主编.卫生统计学.第二版.北京：人民卫生出版社,1997，78
两生存率比较的检验效能
1.倪宗瓒主编.卫生统计学.第二版.北京：人民卫生出版社,1997，79
直线相关的检验效能
1.倪宗瓒主编.卫生统计学.第二版.北京：人民卫生出版社,1997，77
11 附表。