流行病学 横断面研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
17
系统抽样 systematic sampling
按照一定顺序,机械地每隔若干单位抽取一个 单位
操作简单、容易明白 许多情况下可以高效率实施 对样本进行方差估计时,可以将它看成是SRS 重要假设:抽样单位排列与待测量值无关联
o 如果有关联,抽样结果可能有偏差
18
例:决定在某街道进行儿童维生素D缺乏调查。
unit in chosen clusters
22
多阶段抽样 Multi-staged sampling
分阶段进行抽样,每个阶段可用上述方法中任意一种进行抽 样
例:在某省进行某项调查: o 第一阶段:随机抽取30个县(整群) o 第二阶段:每县抽取10个自然村(整群) o 第三阶段:每村抽取10名村民(SRS)
患病率很低,小样本不能提供足够精确的信息 变异程度大,需大样本控制抽样误差
样本含量适当是指将样本的随机误差控制在允 许范围之内时所需的最小样本含量
样本如果达总体60%以上时,考虑普查
15
常见抽样方法
单纯随机抽样
Simple random sampling
系统抽样
Systematic sampling
又因它得到的率一般是在特定时间、特定人群中的 患病率,因而又有患病率研究(prevalence study) 之称。
注意:
现况研究强调在一定时间内完成,若调查的时间跨度过大, 会给调查结果的解释带来困难。
现况研究多适用于对病程较长、患病率较高的疾病进行研 究。
该方法虽然不能得到疾病的发病率,但利用间隔一年的两 次现况研究获得的患病率之差可计算发病率。
局限性:抽样误差大,通常要比其他方法增加 1/2的样本含量
21
分层抽样与整群抽样的比较
Population of L strata, stratum l contains nl units
Population of C clusters
Take SRS in every stratum
Take SRS of clusters, sample every
配额抽样(Quota sampling):根据一定标志对总体分层或分类后, 从各层或各类中主观地选取一定比例的调查单位的方法
初衷是努力让样本有“代表性”,可能会带来很大偏差
方便抽样(Convenience sampling ):随意选取(通常是容易找到 的)个体进行
o 例:选取前10名从某超市里走出来的人
普查 Census
34
5
2
6
1
12
11 10 9 8
13 14
16 17
15
普查
34
5
2
6
1 12
11 10 9 8
13 14
16 17
15
总体中的个体
1
2
3
4
7
5 6
7
8
9
10
11
12
13
7
14
15
16
17
12
普查优缺点:
没有抽样误差 能发现人群中的全部病例 一次调查可观察多个因素和疾病的关系 是对群众的一次卫生宣教活动
抽样人数:4/(20/100,000)=20,000 人
期望值选 4,2 万人观察 1 年,或 1 万人观察 2 年。
• 计量资料样本含量的估计方法:用以样本均数估 计总体均数的样本含量的计算公式
式中:
n ( a )2
• n和同前式
• σ为估计的总体标准差
• δ为允许误差,即允许的样本均数与总体均数的误差
• 例题2:拟用抽样调查了解某地健康成人白细胞 计数的平均水平,希望误差不超过100/mm³。已 知健康成人白细胞计数的标准差约1000/ mm³, 如定α为0.05,需查多少人?
n (1.96 1000)2 384.2 385(人) 100
• 注意:简单随机抽样、系统抽样、分层抽样的样 本含量皆按上述公式计算。整群抽样由于抽样误 差大,需扩大样本含量以减少抽样误差,故样本 含量需在按以上公式计算的基础上增加50%。
150
• 当 n×p ≤ 5时或总体率很低时,如肿瘤、某种出生 缺陷,可按下式估计样本含量:
n=[
57.3 a
]2
sin1 (d / p(1 P))
• 也可参照泊松分布可信限表估计样本含量。
例:某地肝癌发病率参考邻地情况估计为 20/10 万,问应抽样多少人以获得肝癌现患率?
泊松(poisson)分布期望值可信限表
分层抽样
Stratified sampling
整群抽样
Cluster sampling
两阶段抽样
Two-staged sampling
16
单纯随机抽样 Simple random sampling (SRS)
从总体N个对象中,随机抽取n个对象
方法:抽签、随机数字表、电脑随机数字
是抽样理论的基础 优点:简便易行 缺点:工作量太大、实际工作中难以采用
现况研究的种类
1.普查(census)
定义:
在特定时间、对特定范围内的所有个体进行全面调查
普查目的:
对某些疾病早发现、早诊断、早治疗 :筛检 了解人群中疾病和健康状况的分布或制定某生物学检验标准
普查原则:
所普查的疾病患病率不宜太低 检测手段和方法应简易而准确 有足够的人力、物力和财力进行调查
现况研究资料的收集
1.资料来源:现况研究可收集的信息多种多样,主 要来自:
研究对象的各种特征:疾病、健康状况、行为特 征、心理特征、遗传学特征、人口学特征等;
研究对象所处的自然环境; 社会环境。
现况研究资料分析和结果解释
在进行资料分析前要做以下工作:
原始资料
查漏补缺 纠正错误
疾病或某种健康 状况进行归类
问题:这里的一级抽样单位是什么?最终抽样 单位是什么?
24
各抽样方法的方差
V整群抽样 > V单纯随机抽样 ≥ V系统抽样 > V分层抽样
25
一些非概率“抽样”方法
选择性抽样(Judgment sampling):有意选择调查者认为能得出 准确结果的个体进行调查
例:选择一个大城市,一个城镇,一个乡村地区;进行探索性调研,如抽取深度访谈样本
滚雪球抽样(Snowball sampling):先对随机选择的一些被调查者 实施访问,然后再请他们推荐属于研究目标总体特征的调查对象
用于低发生率或少见的总体中进行抽样,如同性恋人群
26
样本含量估计
• 计数资料样本含量的估计方法:用以样本率估计总体率的样 本含量计算公式
• 当总体率接近0.5(比如0.2~0.8)或当 n×p > 5时
用途
为病因研究提供线索:关联
了解疾病和病因的分布状况为疾病防制工作提供 依据
评价预防疾病、促进健康的策略和措施的效果
干预前后重复现况调查
早期发现病人
筛检 实现早诊断、早期治疗的二级预防目的
确定机体各项指标的正常值范围
有代表性的正常人群 均数及95%正常值范围
特点
一般不设对照组 关心的是某一特定时点或短时期内某一群体中暴
时,可按正态近似原理,采用下式计算样本含量。
n
a2
d2
pq
式中:
n为所需样本含量;
p为总体率的估计值,q=1-p;
d为允许误差,即允许抽样率与总体率之间的差别可以有多大,一般用p 的百分比估计;
α为第一类错误的概率;为确定α后的μ值,可查μ值表获得。
流行病学现况研究中常用的抽样条件是:
• 允许误差d = 0.1p, α=0.05, u0.05=1.96≈2
描述性研究 Descriptive Study
流行病学教研室
教学目的
掌握现况研究的定义、特点、用途、各种抽样 方法的定义和优缺点以及样本量决定因素
熟悉现况研究的设计要点和实施方法 了解非概率抽样
描述性研究
指利用常规监测记录或通过专门调查获得的数 据资料,按不同地区、不同时间及不同人群特征 分组,描述人群中疾病或健康状态或暴露因素的 分布情况,进行比较分析,获得疾病三间分布的 特征,进而提出病因假设和线索
分层变量:总体内主要
变异因素(例:医院层
别,居住地)
层1
层2
层3
当层间差异大,层内差 异小时最实用
随机抽取
20
整群抽样 Cluster sampling
将总体分成若干群,从其中随机抽取若干群, 对抽中的群中所有人进行调查
抽取的群数应尽量多(>15个)
o 群数太少可能造成统计计算的困难(方差很大)
优点:易组织、实施方便,易为研究对象所接 受,节省人力和物力
不适用于患病率很低和诊断技术复杂的疾病 无应答率常常较高 质量不易控制
2. 抽样调查(sampling survey)
概念:指从某人群总体中按一定原则抽取部分有代表性
的个体(样本)进行调查,用这部分样本的调查结果推算 出该人群总体某病的患病率或某些特征的情况,这是以小 窥大,以局部估计总体的调查方法。
描述流行病学
描述性资料的来源:
专门设计的调查研究
现况研究 生态学研究 个案调查 暴发调查
常规记录资料
死亡报告 出生登记 出生缺陷监测 药物不良反应监测 疾病监测等资料
流行病学研究设计类型
可信度
* 干预试验 * 队列研究 * 病例对照/回顾性队列研究
* 横断面研究
* 生态学研究
* 病例系列 * 个案
此时上式可简化为:
n 400 q p
例题1:某地欲了解其50岁以上人口中高血压病的 患病率,估计该人口的患病率p=25%,设α为0.05, 允许误差为0.1p,样本含量为
n 400 q 400 0.75 120(0 人)
p
0.25
不同预期现患率与不同容许误差下的样本含量
(α=0.05)
抽样方法:
概率(随机)抽样:每一名调查对象都有一个确定的 抽中概率
o 能够得出无偏结果(若没有无应答者) o 能够估算抽样误差 o 最常使用的一类抽样方法
非概率(非随机)抽样:无法确定调查对象的抽中概 率
概率抽样调查 Sample surveys
按一定的概率,在人群中抽取一部分人来调查 以样本统计量估计总体参数 节省时间、人力、物力 调查可以做得更细致 适用于患病率较高、变异程度不太大的疾病
1. 统计描述:
描述资料的人口学基本特征:年龄、性别、民族、职业等 构成,以介绍该资料所代表的总体。
计算有关统计指标:患病率、感染率、暴露率等频率指标; 有关计量资料的均数、标准差、标准误、95%可信区间
描述不同空间、不同特征人群中某事件或多个事件的分布 特征:此项工作的目的是找出某事件在不同地区、不同特 征人群中分布的差异,为进一步分析提供线索。
预期现患率
容许误差 0.1P 0.15P 0.2P
0.05
7600
3382
1900
0.075
4933
2195
1233
0.10
3600
1602
900
0.15
2267
1009
566
0.20
1600
712
400
0.25
1200
534
300
0.30
933
415
233
0.35
743
330
186
0.40
600
百度文库
267
花费 5
现况研究
概念: 现况研究是应用普查或抽样调查的方法收 集特定时间内、特定人群中疾病、健康状况及 有关因素的资料,并对资料的分布特征加以描 述。
① ②
1996
③ ④
1997
⑤ ⑥
1998
⑦
⑧
1999
2000
2001
2002
因为现况研究所获得的资料是在某一时间横断面上 收集的,故又称横断面研究(cross sectional study)。
露和疾病的状况或联系 不能确定暴露与疾病的因果关系 对固定的暴露因素可作因果推论 在现在暴露水平与既往变化不大或存在良好相关
性,或已知其变化规律时,可用现在的暴露状态 来代替或估计过去的暴露状态 多次重复可获得患病率的长期趋势 定期重复可获得发病率资料
Smoking prevalence in Britain 1948‐2006
应抽取20-30个(最低不能少于15个)一级抽样单位 o 一级抽样单位是第一次抽样的单位;在上例中是“县”
23
重要概念
一级抽样单位:在多阶段抽样中第一个被抽样的单位 最终抽样单位:最后被抽、被调查的单位
o例:从全国34个省份中每省按人口比例随机抽取一定数量的 县,每县按人口比例随机抽取一定数量的乡镇,每乡镇随机抽 取5个村,每村随机抽取10名村民。
期望值
0.95
下限 上限
0.90 下限 上限
0
0.0000 3.69
1
0.0253 5.57
2
0.242
7.22
3
0.619
8.77
4
1.09
10.24
5
1.62
11.67
6
2.20
┆
13.06
0.0000 0.0513 0.355 0.818 1.37 1.97 2.61
3.00 4.74 6.30 7.75 9.15 10.51 11.84
根据样本量估算,需要抽取1/10的儿童采血检测 调查者决定,先用随机数字表选择1-10中一个数字 ,然后用系统随机方法抽取该街道的1/10家庭, 每家儿童数如果超过1人,再随机抽一个。
这一抽样方法有没有什么潜在问题?
19
分层抽样 Stratified sampling
将总体按某一特征分层,
在每层中进行随机抽样 总体
系统抽样 systematic sampling
按照一定顺序,机械地每隔若干单位抽取一个 单位
操作简单、容易明白 许多情况下可以高效率实施 对样本进行方差估计时,可以将它看成是SRS 重要假设:抽样单位排列与待测量值无关联
o 如果有关联,抽样结果可能有偏差
18
例:决定在某街道进行儿童维生素D缺乏调查。
unit in chosen clusters
22
多阶段抽样 Multi-staged sampling
分阶段进行抽样,每个阶段可用上述方法中任意一种进行抽 样
例:在某省进行某项调查: o 第一阶段:随机抽取30个县(整群) o 第二阶段:每县抽取10个自然村(整群) o 第三阶段:每村抽取10名村民(SRS)
患病率很低,小样本不能提供足够精确的信息 变异程度大,需大样本控制抽样误差
样本含量适当是指将样本的随机误差控制在允 许范围之内时所需的最小样本含量
样本如果达总体60%以上时,考虑普查
15
常见抽样方法
单纯随机抽样
Simple random sampling
系统抽样
Systematic sampling
又因它得到的率一般是在特定时间、特定人群中的 患病率,因而又有患病率研究(prevalence study) 之称。
注意:
现况研究强调在一定时间内完成,若调查的时间跨度过大, 会给调查结果的解释带来困难。
现况研究多适用于对病程较长、患病率较高的疾病进行研 究。
该方法虽然不能得到疾病的发病率,但利用间隔一年的两 次现况研究获得的患病率之差可计算发病率。
局限性:抽样误差大,通常要比其他方法增加 1/2的样本含量
21
分层抽样与整群抽样的比较
Population of L strata, stratum l contains nl units
Population of C clusters
Take SRS in every stratum
Take SRS of clusters, sample every
配额抽样(Quota sampling):根据一定标志对总体分层或分类后, 从各层或各类中主观地选取一定比例的调查单位的方法
初衷是努力让样本有“代表性”,可能会带来很大偏差
方便抽样(Convenience sampling ):随意选取(通常是容易找到 的)个体进行
o 例:选取前10名从某超市里走出来的人
普查 Census
34
5
2
6
1
12
11 10 9 8
13 14
16 17
15
普查
34
5
2
6
1 12
11 10 9 8
13 14
16 17
15
总体中的个体
1
2
3
4
7
5 6
7
8
9
10
11
12
13
7
14
15
16
17
12
普查优缺点:
没有抽样误差 能发现人群中的全部病例 一次调查可观察多个因素和疾病的关系 是对群众的一次卫生宣教活动
抽样人数:4/(20/100,000)=20,000 人
期望值选 4,2 万人观察 1 年,或 1 万人观察 2 年。
• 计量资料样本含量的估计方法:用以样本均数估 计总体均数的样本含量的计算公式
式中:
n ( a )2
• n和同前式
• σ为估计的总体标准差
• δ为允许误差,即允许的样本均数与总体均数的误差
• 例题2:拟用抽样调查了解某地健康成人白细胞 计数的平均水平,希望误差不超过100/mm³。已 知健康成人白细胞计数的标准差约1000/ mm³, 如定α为0.05,需查多少人?
n (1.96 1000)2 384.2 385(人) 100
• 注意:简单随机抽样、系统抽样、分层抽样的样 本含量皆按上述公式计算。整群抽样由于抽样误 差大,需扩大样本含量以减少抽样误差,故样本 含量需在按以上公式计算的基础上增加50%。
150
• 当 n×p ≤ 5时或总体率很低时,如肿瘤、某种出生 缺陷,可按下式估计样本含量:
n=[
57.3 a
]2
sin1 (d / p(1 P))
• 也可参照泊松分布可信限表估计样本含量。
例:某地肝癌发病率参考邻地情况估计为 20/10 万,问应抽样多少人以获得肝癌现患率?
泊松(poisson)分布期望值可信限表
分层抽样
Stratified sampling
整群抽样
Cluster sampling
两阶段抽样
Two-staged sampling
16
单纯随机抽样 Simple random sampling (SRS)
从总体N个对象中,随机抽取n个对象
方法:抽签、随机数字表、电脑随机数字
是抽样理论的基础 优点:简便易行 缺点:工作量太大、实际工作中难以采用
现况研究的种类
1.普查(census)
定义:
在特定时间、对特定范围内的所有个体进行全面调查
普查目的:
对某些疾病早发现、早诊断、早治疗 :筛检 了解人群中疾病和健康状况的分布或制定某生物学检验标准
普查原则:
所普查的疾病患病率不宜太低 检测手段和方法应简易而准确 有足够的人力、物力和财力进行调查
现况研究资料的收集
1.资料来源:现况研究可收集的信息多种多样,主 要来自:
研究对象的各种特征:疾病、健康状况、行为特 征、心理特征、遗传学特征、人口学特征等;
研究对象所处的自然环境; 社会环境。
现况研究资料分析和结果解释
在进行资料分析前要做以下工作:
原始资料
查漏补缺 纠正错误
疾病或某种健康 状况进行归类
问题:这里的一级抽样单位是什么?最终抽样 单位是什么?
24
各抽样方法的方差
V整群抽样 > V单纯随机抽样 ≥ V系统抽样 > V分层抽样
25
一些非概率“抽样”方法
选择性抽样(Judgment sampling):有意选择调查者认为能得出 准确结果的个体进行调查
例:选择一个大城市,一个城镇,一个乡村地区;进行探索性调研,如抽取深度访谈样本
滚雪球抽样(Snowball sampling):先对随机选择的一些被调查者 实施访问,然后再请他们推荐属于研究目标总体特征的调查对象
用于低发生率或少见的总体中进行抽样,如同性恋人群
26
样本含量估计
• 计数资料样本含量的估计方法:用以样本率估计总体率的样 本含量计算公式
• 当总体率接近0.5(比如0.2~0.8)或当 n×p > 5时
用途
为病因研究提供线索:关联
了解疾病和病因的分布状况为疾病防制工作提供 依据
评价预防疾病、促进健康的策略和措施的效果
干预前后重复现况调查
早期发现病人
筛检 实现早诊断、早期治疗的二级预防目的
确定机体各项指标的正常值范围
有代表性的正常人群 均数及95%正常值范围
特点
一般不设对照组 关心的是某一特定时点或短时期内某一群体中暴
时,可按正态近似原理,采用下式计算样本含量。
n
a2
d2
pq
式中:
n为所需样本含量;
p为总体率的估计值,q=1-p;
d为允许误差,即允许抽样率与总体率之间的差别可以有多大,一般用p 的百分比估计;
α为第一类错误的概率;为确定α后的μ值,可查μ值表获得。
流行病学现况研究中常用的抽样条件是:
• 允许误差d = 0.1p, α=0.05, u0.05=1.96≈2
描述性研究 Descriptive Study
流行病学教研室
教学目的
掌握现况研究的定义、特点、用途、各种抽样 方法的定义和优缺点以及样本量决定因素
熟悉现况研究的设计要点和实施方法 了解非概率抽样
描述性研究
指利用常规监测记录或通过专门调查获得的数 据资料,按不同地区、不同时间及不同人群特征 分组,描述人群中疾病或健康状态或暴露因素的 分布情况,进行比较分析,获得疾病三间分布的 特征,进而提出病因假设和线索
分层变量:总体内主要
变异因素(例:医院层
别,居住地)
层1
层2
层3
当层间差异大,层内差 异小时最实用
随机抽取
20
整群抽样 Cluster sampling
将总体分成若干群,从其中随机抽取若干群, 对抽中的群中所有人进行调查
抽取的群数应尽量多(>15个)
o 群数太少可能造成统计计算的困难(方差很大)
优点:易组织、实施方便,易为研究对象所接 受,节省人力和物力
不适用于患病率很低和诊断技术复杂的疾病 无应答率常常较高 质量不易控制
2. 抽样调查(sampling survey)
概念:指从某人群总体中按一定原则抽取部分有代表性
的个体(样本)进行调查,用这部分样本的调查结果推算 出该人群总体某病的患病率或某些特征的情况,这是以小 窥大,以局部估计总体的调查方法。
描述流行病学
描述性资料的来源:
专门设计的调查研究
现况研究 生态学研究 个案调查 暴发调查
常规记录资料
死亡报告 出生登记 出生缺陷监测 药物不良反应监测 疾病监测等资料
流行病学研究设计类型
可信度
* 干预试验 * 队列研究 * 病例对照/回顾性队列研究
* 横断面研究
* 生态学研究
* 病例系列 * 个案
此时上式可简化为:
n 400 q p
例题1:某地欲了解其50岁以上人口中高血压病的 患病率,估计该人口的患病率p=25%,设α为0.05, 允许误差为0.1p,样本含量为
n 400 q 400 0.75 120(0 人)
p
0.25
不同预期现患率与不同容许误差下的样本含量
(α=0.05)
抽样方法:
概率(随机)抽样:每一名调查对象都有一个确定的 抽中概率
o 能够得出无偏结果(若没有无应答者) o 能够估算抽样误差 o 最常使用的一类抽样方法
非概率(非随机)抽样:无法确定调查对象的抽中概 率
概率抽样调查 Sample surveys
按一定的概率,在人群中抽取一部分人来调查 以样本统计量估计总体参数 节省时间、人力、物力 调查可以做得更细致 适用于患病率较高、变异程度不太大的疾病
1. 统计描述:
描述资料的人口学基本特征:年龄、性别、民族、职业等 构成,以介绍该资料所代表的总体。
计算有关统计指标:患病率、感染率、暴露率等频率指标; 有关计量资料的均数、标准差、标准误、95%可信区间
描述不同空间、不同特征人群中某事件或多个事件的分布 特征:此项工作的目的是找出某事件在不同地区、不同特 征人群中分布的差异,为进一步分析提供线索。
预期现患率
容许误差 0.1P 0.15P 0.2P
0.05
7600
3382
1900
0.075
4933
2195
1233
0.10
3600
1602
900
0.15
2267
1009
566
0.20
1600
712
400
0.25
1200
534
300
0.30
933
415
233
0.35
743
330
186
0.40
600
百度文库
267
花费 5
现况研究
概念: 现况研究是应用普查或抽样调查的方法收 集特定时间内、特定人群中疾病、健康状况及 有关因素的资料,并对资料的分布特征加以描 述。
① ②
1996
③ ④
1997
⑤ ⑥
1998
⑦
⑧
1999
2000
2001
2002
因为现况研究所获得的资料是在某一时间横断面上 收集的,故又称横断面研究(cross sectional study)。
露和疾病的状况或联系 不能确定暴露与疾病的因果关系 对固定的暴露因素可作因果推论 在现在暴露水平与既往变化不大或存在良好相关
性,或已知其变化规律时,可用现在的暴露状态 来代替或估计过去的暴露状态 多次重复可获得患病率的长期趋势 定期重复可获得发病率资料
Smoking prevalence in Britain 1948‐2006
应抽取20-30个(最低不能少于15个)一级抽样单位 o 一级抽样单位是第一次抽样的单位;在上例中是“县”
23
重要概念
一级抽样单位:在多阶段抽样中第一个被抽样的单位 最终抽样单位:最后被抽、被调查的单位
o例:从全国34个省份中每省按人口比例随机抽取一定数量的 县,每县按人口比例随机抽取一定数量的乡镇,每乡镇随机抽 取5个村,每村随机抽取10名村民。
期望值
0.95
下限 上限
0.90 下限 上限
0
0.0000 3.69
1
0.0253 5.57
2
0.242
7.22
3
0.619
8.77
4
1.09
10.24
5
1.62
11.67
6
2.20
┆
13.06
0.0000 0.0513 0.355 0.818 1.37 1.97 2.61
3.00 4.74 6.30 7.75 9.15 10.51 11.84
根据样本量估算,需要抽取1/10的儿童采血检测 调查者决定,先用随机数字表选择1-10中一个数字 ,然后用系统随机方法抽取该街道的1/10家庭, 每家儿童数如果超过1人,再随机抽一个。
这一抽样方法有没有什么潜在问题?
19
分层抽样 Stratified sampling
将总体按某一特征分层,
在每层中进行随机抽样 总体