抽样方法案例
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
附件二:
国家卫生服务总调查样本地区和样本个体的抽取方法
一、概述
1.1国家卫生服务总调查抽查的原则是既要兼顾调查设计的科学性即样本地区和样本个体对全国和不同类型地区有足够的代表性,又不致于过多增加样本量而加大调查的工作量,即经济有效的原则。
1.2抽样的方法是多阶段分层整群随机抽样法。第一阶段分层是以县(市或市区)为样本地区;第二阶段分层是以乡镇(街道)为样本地区;第三阶段分层以村为样本地区;最后是住户为样本个体。
二、第一阶段分层整群抽样
2.1第一阶段抽样着重解决两个基本问题:一是由于全国各县、市差异极大,如何确定第一阶段分层的基准;二是抽样比例,多大的县、市样本量能经济有效地代表全国和不同类型的地区。
2.2第一阶段分层基准的确定
第一阶段分层的指标是通过专家咨询法和逐步回归法筛选的10个与卫生有关的社会经济、文化教育、人口结构和健康指标。10个指标的主成份分析结果如表1。
表⒈主要社会经济和人口动力学指标的主成份因子模型
从主成份分析中可以看出主成份1与绝大多数变量有十分显著的关联,意义十分明确,而且代表 10 个变量整体信息的 51.22%。其值的大小可以综合反映一个地区社会经济、文化教育、人口及其健康的发展。因此,确定主成份1为分层的基准称它为分层因子。
2.3第一阶段的聚类分层
在计算各县、市分层因子的得分后,用 K-Means聚类分析方法将总体分为组间具有异质性和组内具有同质性的五类地区即五层。聚类分层的结果第一层有 201 个县(市或市区),占整个县(市或市区)的 8.2%;第二层有 650个县(市或市区),占 26.5%;第三层有 698 个县(市或市区),占 28.5%;第四层有 691个县(市或市区),占 28.2%;第五层有 212,占 8.6%。
表⒉显示了各层因子得分和选择的社会经济等变量的均值,可见各层呈明显的梯度。可以认为,第一层所在的市县,是社会经济、文化教育和卫生事业发展以及人群健康状况好的地区,第二层是比较好的地区,第三层是一般性地区,第四层是比较差,第五层是差的地区。
表2 主要社会经济和人口动力学指标的主成份因子模型
市县因子得分社会经济和人口动力学指标
2.4第一阶段分层等概率多种样本容量的抽样
用经济有效的样本代表总体是抽样调查的精髓。样本量的确定基于以往的经验和其他国家抽样调查样本的设计,首先给定一个样本量大小的范围,确定抽取样本量为 120,90,60,45,30 五个大小不等的样本。为了保证各层每一个县(市或市区)都有同等被抽取为样本的概率,必须考虑不同大小样本量的样本在各层的分配,即按比例的分层抽样。见表⒊。
表⒊不同大小样本量样本在各层的分配
层数全国不同大小样本量样本的分配:
按系统随机抽样方法,每个不同大小样本量的样本抽取 6 次。同一样本量的 6 次抽样,通过计算每次抽样样本各变量的统计量,分别与总体各变量参数进行比较,从中筛选出与总体参数最为接近的那个样本,作为该样本量的最佳抽取样本。
2.5第一阶段最佳样本量样本的选择与评价
⑴不同样本量样本各变量均值与总体均数的比较:如果将不同样本量样本各变量的均值与总体各变量的均数绝对误差,绝对误差与总体均数之比为相对误差,同一样本各变量的相对误差具有可加性,其均数称为该样本各变量的平均相对误差。平均相对误差可作为判断不同大小样本量样本对总体代表性的一个尺度。同时,用“1-平均相对误差”作为精确度。
表⒋显示了不同样本量样本各变量的均数,与总体各变量比较的相对误差、平均相对误差和精确度。从不同样本量样本来看,平均相对误差随着样本量的减少而增大。如样本量从120减少到60,平均相对误差由1.4%增加到2.7%,增加了62%,而样本量从60 减少到30,平均相对误差从2.7%增加到5.6%,增加了一倍以上。样本量为 120,90,60 的样本精确度均大 95%,也就是说样本量大于 60 就可对总体有较好的代表性。
⑵不同样本量样本各变量的分布与总体分布的比较:样本变量的分布与总体分布是否吻合也是衡量样本对总体代表性的一个尺度。表⒌列出了不同样本量各变量分布与总体分布卡方检验的结果。从不同样本各变量分布与总体分布的结果,平均卡方值小于 9.49这一差异有显著性水平的样本量为 120,90 和 60。鉴于上述分析,故可认为,样本量大于 60 的样本,各变量的分布大多与总体分布相拟合,对总体有较好的代表性。见表5。
⑶不同样本量样本分散度的评价:样本分散度指样本中各层的变量统计量对总体各层的代表性。在第一层中,样本量为 120 和 90 的样本,平均每个指标的精确度均大于 95%;样本量为 60 的样本,精确度为 89.4%。从第二层到第四层,样本量为 120 和 90 的各个样本,平均每个指标的精确度都大于95%;第五层样本量为 120,90和 60的各样本,精确都分别为94.1%,92.5%和 93.9%,与上述四层相比,精确度略差一些。也就是说,要对总体各层有较好的代表性,样本量至少为 90 。详见表6。
2.6考虑到经济有效的原则和对全国、不同类型的地区和上述每个指标的代表性,国家卫生服务总调查的县(市或市区)样本容量取90。具体抽出的县、市或市区见附件5。
三、第二阶段整群随机抽样
3.1在上述抽取的90个“样本县(市或市区)”中,以乡镇(街道)为第二阶段整群系统随机抽样单位。全国每个乡镇(街道)被抽取为“样本乡镇(街道)”的概率是1∶160。第二阶段整群系统随机抽样全国共抽取 450个乡镇(街道)。平均每个“样本县(市或市区)”抽5个乡镇(街道)。第二阶段分层整群抽样具体由各样本县(市或市区)按下述方法抽取。
3.2第二阶段整群随机抽样的基准
由于一个县(市或市区)内社会经济、文化教育和卫生状况的差异远小于全国各县、市之间的差异,因而确定县(市或市区)的抽样基准相对容易。根据我国各县(市或市区)的基本特征、实际的可操作性和以往抽样调查常用的指标,确定采用人口数(或人均收入)作为分层基准。
3.3第二阶段整群随机抽样的的方法
①将样本县(市或市区)所有的乡镇(街道)按人口数的多少(或人均收入的大小)由多到少依次排序;
②由多到少依次计算人口数(或人均收入)的累计数;
③计算抽样间隔,用累计的人口总数(或人均收入累计总数)除于抽取的样本数(累计总数/5);
④用纸币法(随便拿出一张人民币,看人民币的号码与最初累计数哪一个数接近,取这个数为开始数)随机确定第一个样本乡镇(街道),然后加上抽样距离确定第二个样本乡镇(街道),依次类推确定第三至五个样本乡镇(街道)。
3.4第二阶段整群随机抽样实例
某个样本县共有 18个乡、镇,要从该样本县抽取5乡镇作为样本。根据抽样方案的要求,第一步人口数的多少由大到小排序,并计算累计数(该县人口累计数即人口总数为210100),见表6;
第二步计算抽样间隔,用人口总数除于抽样的样本数,248600/5 = 49720,该县乡镇整群抽样的抽样间隔为49720;
第三步确定第一个随机数,取一张人民币,其编号的为FP59243854,取后5位数是43854,所取的后5为数不能大于抽样间隔数,如大于再取一张人民币.该后5位随机数接近第2编号即平湖镇后面的累计数,因此确定第2号平湖镇为第一个样本;
第四步用第一个样本的累计数加抽样间隔,即 43000 + 49720 = 92720,
该数接近第5编号即新龙乡的累计数,确定第5号新龙乡为第二个样本。
第五步用第二个样本的累计数加抽样间隔,即 100900+49720=142920,该数接近第8编号新原乡的累计数,确定第8号新原乡为第三个样本;同样的方法确定第⒔号和第⒙号即桐连乡和四顶乡。这样,五个样本乡镇就确定了。