抽样及样本含量估计_20110315
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
年龄、性别等 居委会住户名单
举例:
抽样的类型
概率抽样 按一定的概率以随机原则抽取样本 概率抽样中抽样框是关键 抽中的概率已知 当用样本对总体目标进行估计时,要考虑到该样本被抽中 的概率 “概率抽样”不等于“等概率抽样”
非概率抽样(如:方便方便, 判断样本,目的抽样等):不 是按照随机原则,而是根据主观判断有目的,有意识的进行。 但则不可能从样本外推到总体或进行统计推断 首选概率抽样
简单随机抽样样本量估计是其他概率抽样方法样本 量估计的基础 其他概率抽样样本量估计可以用简单随机抽样样本 量乘以设计效应deff
如多阶段抽样deff范围约在1.3~3之间
分层随机抽样
分层抽样的必要性
简单随机抽样适用条件:调查的总体的N较小
倘若N较大,如总体是全国13亿人口,要从中抽取 10万人的样本,则变得很困难。表现在:
aged 1-4 years
( n = 16376 )
Sample Size: 81775
Male:38895 Female:42880
aged 5-14 years ( n = 23753 )
Sampling Design: Multistage Sampling
Lab Test: ELISA aged 15-59 years
抽样调查不能代替普查
普查能提供研究对象的总体情况,还可以提供各区域、 各类别的统计信息 普查是构建抽样框的基础
抽样调查作为普查的补充
我国每10年进行一次全国性的人口普查,中间每年进行 一次人口变动量的抽样调查,对当年的人口出生、死亡、 迁移等情况进行估计
全国第六次人口普查工作
普查标准时点:普查年度(2010年的11月1日零日零 时 普查对象:“普查标准时点在中华人民共和国境内 的自然人,以及在中华人民共和国境外但未定居的 中国公民,不包括在中华人民共和国境内短期停留 的境外人员” 调查内容:人口和住户的基本情况,包括姓名、性 别、年龄、民族、国籍、受教育程度、行业、职业 、迁移流动、社会保障、婚姻、生育、死亡、住房 情况等。
你所知道的抽样中可能 存在什么问题??
有关抽样的基本概念
总体
目标总体:所要研究对象的理想的总体,即研究对象的全体。
抽样总体:目标总体中选择的有代表性的、限定具体时间和 地域范围的可以获得的群体。
目标总体和抽样总体的差别
抽样框
抽样总体的具体表现是抽样框,抽样框应包含所有抽样 单元的名单. 抽样框中应该有抽样单元名称和地理位置的信息,以便 研究人员能找到被选中的单元. 好的抽样框不仅与目标总体保持一致,而且还尽可能的 提供与研究的目标量有关的辅助信息。
( n =41646 )
Data source:from Xiaofeng Liang and Fuqiang Cui of China CDC
Global Distribution of HBV Infection by HBsAg endemicity
HBV Carriage: 9.75% in 1992
层间单元的差异尽可能大
抽样组织实施的方便
分层抽样的抽样过程
按总体某一特征(如年龄、性别或职业暴露等)将总体N 分为若干类(组),即分层。该分类(组)数即层数 确定每层抽样比例。
若在各层采用相同的抽样比例(Pi=总样本人数 / 总体人数= n / N),即样本中各层抽取人数占总体中各层人数的比例相同时 ,称比例抽样,适用于各层的率在0.1~0.9 之间总体人群的抽 样。 相反,各层抽样比例不同时称非比例抽样,适用于各层的率 相差较大时,如在0.001~0.500或0.950~0.999之间
全国卫生及营养状况调查 全国家庭增长的调查
在中国,近几年来,也先后开展了一系列的全国性健康调查,如:
全国慢性乙型肝炎感染状态调查 结核病患病率调查
Geographic Distribution and Demographic Characteristics of the study population from 160 DSPs in the Seroepidemiological Survey in 2006
概率抽样的类型
单纯随机抽样(Simple random sampling) 分层抽样(Sampling with stratification) 整群抽样(Cluster sampling) 系统抽样(Systematic sampling) 多阶段抽样(Multistage sampling )
队列研究:研究对象的选择 病例对照研究:病例和对照的选择,尤其是对照 临床试验:将研究对象随机分配到不同的处理组
为什么要抽样?
为什么不能对每个研究对象都进行调查(抽样的优 点)?
节约费用 时效性强 可以承担全面调查无法胜任的工作 有助于提高调查数据的质量
普查 vs 抽样
抽签 随机数字
随机数字法
使用EXCEL中的RAND()
1 2 3 6 7 8 9 10 11 17 0.704446 0.566829 0.009253 0.251854 0.297145 0.708996 0.818349 0.792495 0.358031 0.944461 17 9 10 8 1 2 11 7 6 3 0.944461 0.818349 0.792495 0.708996 0.704446 0.566829 0.358031 0.297145 0.251854 0.009253
实施的困难 样本的代表性
定义
在抽样前,先将总体N个单 元划分成L个互不重复的子 总体,每个子总体称为层, 其大小分别为N1,N2,…,NL, 这L个层合起来就是整个总 体。然后,在每个层中分 别独立地进行抽样。
分层 的原则
调查目的:
如某指标在不同地区、不同民族的分布特征。
层内单元具有相同性质
简单随机抽样样本量估计(总体参数 为均数)
n u / 2 2
2 2
:总体的方差,根据预试验估计
2
= x
当用相对容许误差 (与总体均数相差不超过真值的(%))表示时, 则 =
举例:抽样调查时估计总体均数时
为调查某一镇静药的某有效成分的含量,采用单纯 随机抽样的方法。据报道,一个镇静药中某有效成 分含量为2.25,标准差为0.85
HBV Carriage: 7.18% in 2006
HBsAg endemicity
8% - High endemic areas (45%) 2~7% - moderate endemic areas(43%) < 2% - Low endemic areas (<12%)
Data Source: (1) Dai ZC, Qi GM. Seroepidemiological Survey in Chinese population (part one), 1992-1995. Beijing. Sci Tech Exp 1996:39–59. (2) Liang XF et al. Vaccine 2009 27:6550-6557
由于不太可能对目标人群中的所有的人进行调 查,因此在大多数调查中都可能会涉及到抽样
抽样在公共卫生中的应用
卫生机构想评价全国的卫生现状(如:一些重要的慢性病的患病情况、保险的 覆盖率、医疗保健的可获得性等),从而指导卫生资源的分配,并评价卫生政 策的效果。 在美国,National Center for Health Statistics (NCHS)是主要的卫生统计机构 (http://www.cdc.gov/nchs/about.htm),先后主持了一系列的调查,如
第二车间抽样人数:n2= 7000 X 0.02 =140; 依次确定每车间的抽样人数。
(4) 按简单随机抽样方法, 从每一层(车间)内抽 出相应样本数量的样本,各层样本数量之和即等 于样本数n,共1000人。
分层抽样的作用
抽样效率高,估计精度高
能同时对总体指标和各层指标进行估计
各层内抽样方法可不同
n
u
2
/2
(1 )
: 文献估计人群患病率 :容许控制误差
2
但当 <0.3或 0.7时
n
57.3u / 2 1 sin (1 )
2
例:估计的老年痴呆患病率为 P = 2%; 定 0.05,则 = 1.96;定 = 0.1P时: n= 〔1.96 X (0.02 X 0.98)1/2 / (0.1 X 0.02)2 = 18824 或采用下述简化的公式估计: n = 400 x (1- p)/p = 400 X (1-0.02)/0.02 = 19600
单纯随机抽样
单纯随机抽样
从含有N个单元的总体中抽 取n个单元组成样本, 总体中的每个观察单位都 有同等机会被抽取进入样 本(1/CNn )
最简单的抽样方法,是其 他抽样方法的基础
抽样方法
先将调查总体的全部观察单位统一编号,再用 随机数字表或抽签等方法随机抽取部分观察单 位组成样本
举例:假如你想从ID号为1 2 3 6 7 8 9 10 11 17 的10人中随机抽取三人
整群抽样 (Cluster Sampling)
定义
先将总体分成若干群 体,形成一个抽样框; 从中随机抽取几个群 体组成样本; 对抽样群体中的全部 个体进行调查
整群抽样过程
将总体中的个体按其某一属性(如行政区或机构等)分为
若干个群, 按群作为抽样单位编号制作抽样框
普查 VS 抽样
用抽样调查对全面统计资料进行评估和修正
在普查结束后,采用抽查对随机抽取的部分单位进行自 己复核,计算误差率,对普查结果进行质量评估和数据 修正
利用抽样调查进行深层次的分析
利用抽样调查,提前获得总体目标量的估计
抽样
Leabharlann Baidu
抽样被广泛的应用于各个领域
政治方面: 美国总统大选投票(盖洛普公司) 经济方面: 消费者对整个国家的经济形势以及个人的 消费能力等有关消费信心的调查
以α=0.05,估计有效成分含量的均值在真值的± 0.10范 围内,需要调查多少样本? 以95%的可信度,估计有效成分含量的均值在真值的 10%范围内,需要多大的样本?
n1=1.962*0.852/0.102=277.56≈278 N2=1.962*0.852/(2.25*10%)2=54.38≈55
样本估计和总体参数
对于简单随机抽样,可以用样本均数来估计总 体均数
简单随机抽样的特点
优点: (1)比较容易理解和掌握;(2)抽样框不需要其他辅 助信息;
缺点: (1)没有利用辅助信息;(2)样本分散,面访费用较 高;(3)有可能抽到较差的样本;(4)抽选大样本 比较费时
24
简单随机抽样样本量估计(总体参数 为p )
分层抽样的过程(续)
确定每层抽样人数 ni
比例抽样: ni =总体第i层人数X (总样本数 / 总体人数) = Ni (n / N) 非比例抽样:
在每一层对抽样单位进行编号,制作每层的抽样框
按单纯随机抽样方法,根据每层的抽样人数抽取研究
对象
比例抽样实例
某研究者计划在某工厂50000名中调查高血压患 病率。该厂不同工种的工人分布于11个车间。
(1) 总样本数:n = 1000人; (2) 分层:按工种即车间将总体人数50000人分 为11层; (3) 确定每层抽样比例和抽样人数:
第一车间抽样比例: P1 = 总样本人数1000/全厂总人数50000 = 0.02
第一车间抽样人数:n1= 1400 X 0.02 =28
第二车间抽样比例: P2 = 总样本人数1000/全厂总人数50000 = 0.02
抽样及样本含量估计
北京协和医学院基础学院流行病学系 王 丽
主要内容
概述 抽样 样本含量估计
抽样
抽样是通过抽取总体中的部分单元,收集这些单元 的信息,用来对总体进行推断的一种手段
抽取样本
总体
推断总体
样本
流行病学研究中涉及到的抽样
抽样通常会在横断面研究中讨论. 其他研究中也会涉及抽样的问题.