人口普查质量评估调查样本量的测算
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
人口普查质量评估调查样本量的测算
杜艾卿;胡桂华;陈新华;陈虹宇
【摘要】Core work for a census quality assessment survey is measuring and distributing sample size. Because the survey adopts stratified,multi-phase,cluster sampling method,while sample size calculation formula of such sampling method is extremely complex,and therefore indirect sample size measurement method will need to be explored for census quality
as⁃sessment survey. Design effect is fit for calculating sample size of complex sampling methods. So far no country has used de⁃sign effect to calculate sample size of a census quality assessment survey. Therefore,using design effect to measure sample size has cutting-edge and broad applicated prospects.%人口普查质量评估调查的一项核心工作是样本量的测算。
由于该项调查采取分层、多步、整群抽样方法,而这种抽样方法的样本量计算公式极其复杂,因此需要探索间接测算人口普查质量评估调查样本量的方法。
设计效应适合于复杂抽样方法样本量的测算。
迄今尚未见任何国家在人口普查质量评估中使用设计效应计算样本量。
因此,利用设计效应测算样本量具有前沿性及广阔的应用前景。
【期刊名称】《西北人口》
【年(卷),期】2017(038)001
【总页数】7页(P28-33,43)
【关键词】样本量;设计效应;双系统估计量;三系统估计量;单系统估计量
【作者】杜艾卿;胡桂华;陈新华;陈虹宇
【作者单位】重庆工商大学数学与统计学院,重庆400067;重庆工商大学数学与
统计学院,重庆400067;广西财经学院信息与统计学院,南宁530003;重庆工商
大学数学与统计学院,重庆400067
【正文语种】中文
【中图分类】C921.2
人口普查质量评估的首要工作任务是使用基于捕获—再捕获模型或多次捕获模型
的双系统估计量或三系统估计量估计总体实际人口数[1-7],并在此基础上估计人
口普查净误差[8-11]。
完成这项工作的主要手段是在人口普查登记工作结束后进行的质量评估调查。
人口普查质量评估调查是通过抽取样本的方式来进行的,抽样单位是调查小区[12-14]。
抽样前需要确定样本量。
长期以来,包括美国、中国在内
的所有国家只是根据人口普查质量评估目标、历史的做法、经费的多少、调查的难度和经验等主观因素确定样本量。
这违背了抽样理论按公式测算样本量的要求。
本文将严格按照抽样理论,测算人口普查质量评估调查所需要的样本量。
那么,怎样测算样本量呢?如果人口普查质量评估调查采取简单随机或分层随机抽样方法,那么很容易用抽样基本理论样本量计算公式,测算出在给定的精度要求下需要抽取的调查小区数目。
然而,由于人口普查质量评估调查通常采取分层、多步、整群抽样方法,而且这种抽样法的样本量计算公式极其复杂,因而难以直接测算样本量。
这就需要寻找测算复杂抽样法样本量的新途径。
一种可行的途径是,抽样理论中介绍的能够用来间接测算复杂抽样法样本量的设计效应[15]。
所谓设计效应是指,人口普查质量评估抽样调查中所构造的普查时点人口数估计量的方差,除以含有与该样本相同居民户数的以居民户为抽样单位的简单随机抽样下同类估计量的方
差所得之商。
按此定义,应当是两种抽样方法的双系统估计量或三系统估计量方差之比。
由于这两个估计量构造复杂,这个比值不容易计算,所以本文以单系统估计量代替它们。
单系统估计量是指,在构造人口数目估计量时,只使用人口普查质量评估调查人口登记资料,而舍弃人口普查资料。
使用设计效应测算本次人口普查质量评估调查调查小区样本量分五步进行:①确定上次人口普查质量评估调查的抽样方法。
在人口普查质量评估调查中,使用的抽样方法包括两类:一是多阶段抽样;二是多步抽样。
相比多阶段抽样,多步抽样优势明显。
首先,它可以利用第一步样本的信息确定第二步样本的分层标志;其次,它操作便利;②利用上次人口普查质量评估调查样本资料,计算上次抽样方法下的设计效应;③根据本次人口普查质量评估抽样调查所提出的精度要求,假若以居民户为抽样单元,在全国进行简单随机抽样,计算需要抽取的居民户数;④将上次设计效应乘以本次简单随机抽样下的居民户样本量,得到本次抽样法[16-17]下所需要
的居民户样本量。
这么做的前提是,本次与上次采取相同的抽样方法;⑤将本次居民户样本量除以调查小区平均规模(包含的居民户数),得到本次抽样法下的调查小区样本量。
本文创新之处在于:一是首次创建用设计效应测算人口普查质量评估调查样本量技术,因而具有独创性及一定的学术价值;二是鉴于双系统估计量计算量过大,以致难以计算设计效应这个困难,提出用单系统估计量替代双系统估计量或三系统估计量的新观点;三是利用当代抽样前沿理论构造总体普查时点人口数总体方差估计量,这使得基于设计效应测算人口普查质量评估调查样本量成为可能。
本文应用价值在于,为测算复杂抽样法下的样本量提供了新途径、新思路,解决了长期存在于世界各国主观确定人口普查质量评估调查样本量的问题,有助于人口普查质量评估整体方案的科学制订,以及人口普查净误差及普查多报与漏报估计精度的提高。
全国由L个行政区构成(如我国的31个省、自治区、直辖市,美国的50个州和1个哥伦比亚特区,瑞士的26个州,等等)。
以行政区为抽样范围,以调查小区为抽样单位,采取分层两步抽样方法抽取人口普查质量评估调查样本。
第一步抽样,在每个行政区,按城乡及规模交叉分层,将调查小区分在6层。
它们分别是:①城市大型层,每个调查小区在城市,含有居民户100个及以上;②城市中型层,每个调查小区在城市,含有居民户60~99个;③城市小型层,每个调查小区在城市,含有居民户0~59个;④乡村大型层,每个调查小区在乡村,含有居民户100个及以上;⑤乡村中型层,每个调查小区在乡村,含有居民户60~99个;⑥乡村小型层,每个调查小区在乡村,含有居民户0~59个。
于是,全国共分为6L个抽样层,h为其中任意一层,h=1,2,…,6L。
在每一层,以调查小区为抽样单位,等概率等距(视作简单随机抽样)抽取样本。
第二步抽样,对抽取的第一步每一层的样本调查小区,进一步按其独立地址目录与普查地址目录含有的居民户数目的一致性分为3层。
它们分别是:①高于型不一致层(g=1),每个调查小区独立地址目录含有的居民户数高于普查地址目录10%;②低于型不一致层(g=2),每个调查小区独立地址目录含有的居民户数目低于普查地址目录10%;③一致性层(g=3),每个调查小区独立地址目录含有的居民户数目与普查地址目录含有的居民户数目在±10%以内。
在这3层中的每一层,仍然以调查小区为抽样单位,等概率等距(视作简单随机抽样)抽取调查小区样本。
这里的独立地址目录是指,在第一步样本调查小区抽出后,由现场工作人员对抽出的样本调查小区中的居民户进行调查后,编制的居民户地址目录。
这样一来,同一样本调查小区就有两个地址目录:一个是独立居民户地址目录;另外一个是普查时编制的普查居民户地址目录。
(一)全国质量评估调查得到的普查时点人口数的估计量及其方差估计量
记第h层的第g层的第i调查小区的第j居民户(个体)在质量评估调查中观察到
的普查时点上的人口数为yhgij,第h层的普查小区数为Nh,从h层中抽取的初
始样本调查小区数为nh。
将nh划分为三个g层后,其中第g层的初始样本调查
小区数为nhg(相应的总体调查小区数为Nhg)。
从nhg中抽取的最终样本调查小区数为rhg(在这里,各个g层的抽样比rhgnhg相等,都等于rh/nh)。
第hg 层中第i调查小区的居民户数为Mhgi,第hg层的第i普查小区的由质量评估调
查得到的普查时点的人口数为用上述记号,全国由质量评估调查得到的普查时点的人口总数Y为:
Y的无偏估计量为:
式(2)中,whg=nhg/nh,它是Whg=Nhg/Nh的无偏估计量。
式(2)的方差估计量为:
式(3)中,是hg层中最终样本的样本方差,μh=(Nh-nh)/(Nh-1)。
式(4)中,是hg层中最终样本的样本均值:
另外,式(3)中,是h层中各个y¯hg以whg为权数计算的加权算术平均数:(二)相同样本量简单随机方法下Y的同种估计量的无偏估计方差
通过分层两步整群抽样给出估计量的方差估计,需要用到如下定理[18]:在包括有r(r>1)级单元的抽样中,Yr(i)表示第r级的第i单元的观察值,总体总和其中∑T
表示对总体中第r级单元求和。
设为Y的线性无偏估计量,其中f(·)为Yr(i)的系数,∑s表示对样本中第r级单元求和。
若用Q,q分别表示总体、样本中第r级单元总数,为ˆ的方差的无偏估计,那么
应用式(7),在我们现在的问题中,抽样包括了r=4种单元级别,即:第一个级别,层h;第二个级别,层g;第三个级别,调查小区i;第四个级别,居民户j。
定理中的Yr(i)在这里为yhgij。
定理中的在这里由式(1)看到。
定理中的在这里
由式(2)看到为。
定理中的f(·)在这里由式(2)看到为Nhwhg/rhg。
定理中的
Q在这里为。
定理中的q在这里为。
于是,应用式(7)写出为:
(三)计算上次人口普查质量评估调查的设计效应(design effect,简称deff)(四)上次全国总体居民户的yhgij的方差S2估计
这里,“全国总体”是指L个行政区(6L个层)。
下面的讨论是在hg层内调查小区规模(居民户数)相等的基础上进行的。
1.某一hg层各居民户的yhgij总体方差的估计
(1)hg层内总体群间方差。
式(21)证明了是的无偏估计量。
在式(21)的推导过程中,定义为:
(3)该hg层内各居民户yhgij的总体方差的估计。
定义为:
式(23)中,已由(12)定义。
依据文献[18],有下列关系式:
式(24)中,Nhg=NhWhg。
而Whg须用从第一步样本得到的whg=nhgnh来估计。
(显然whg是Whg的无偏估计量)。
另外,分别用式(10)和(18)来估计。
于是,写出式(24)的下列估计量:
下面来证明的近似无偏性。
在证明过程中注意到whg与、与独立。
当样本量足够大时,whg与Whg将很接近,于是,把式(25)分母中的whg用Whg代替。
这样就写出:
这正是式(24)。
它告诉我们,hg层各居民户yhgij值的总体方差可以用(25)来估计。
2.某一h层内各居民户的yhgij值的总体方差的估计
(1)hg层总体均值(平均一个居民户的人口数)的估计量及其方差。
该估计量为:
这个估计量是无偏的。
证明如下:
该估计量的方差为:
该估计量的方差估计量为:
(2)h层总体均值(平均一个居民户的人口数)的估计量及其方差。
对文献[18]稍加推广,得到下列无偏估计量:
估计量的方差估计量为:
式(33)中,已由式(4)定义,已由使式(5)定义,已式(6)定义。
另外,式(33)中,μh=(Nh-nh)/(Nh-1)。
(3)的估计。
的近似无偏估计量为:
式(34)中,whg=nhg/nh,它是Whg=Nhg/Nh的无偏估计量。
由式(25)
定义,在那里论证过,它是的近似无偏估计量。
由于近似无偏,因而的无偏性也只能是近似的。
下面来证明的近似无偏性。
当1 Nhg及1 Nh可以忽略时,等号右边等于,于是有:
式(36)表明,第h层的个体(居民户)间方差可以用式(34)来估计。
3.整个总体各居民户yhgij值的方差S2的估计
(1)整个总体的总体均值(平均一个居民户的人口数)的估计量及其估计方差。
式(37)中,Wh=Nh/N,由式(32)定义。
估计量的方差估计量为:
式(38)中,由式(33)定义。
(2)S2的估计。
参照式(34),写出S2的近似无偏估计量:
式(39)中,W=N/N,由式(34)定义,hh由式(32)定义,由式(33)定义,由式(37)定义,由式(38)定义。
仿照式(35),可以证明式(39)的近似无偏性。
此处不再赘述。
(一)假若本次在整个总体采用简单随机个体抽样
如果要求估计本次人口普查质量评估调查Y的相对误差为r,置信概率为95%
(此时,临界值z=1.96),本次人口普查质量评估调查总体的变异系数用上次的ˆ来代用,其中,ˆ用式(39)计算,Y¯ˆ用式(37)计算。
这时,所需要的样本量(居民户数)为:
(二)假若本次使用与上次同样的抽样方法
此时,为满足相对误差r和置信概率为95%的要求,样本中需要包含的居民户数为:(三)全国调查小区样本量
式(41)给出的是全国人口普查质量评估调查居民户样本量,按全国调查小区平
均规模
(含居民户数)A(全国居民户数除以全国调查小区数),将其折算为全国本次人口普查质量评估调查所需要的调查小区样本量M1,即将式(41)除以A:(四)假若本次使用优于上次的抽样方法
此时,本次所需要的样本量比通过式(42)计算的小,可在式(42)计算结果的
基础上做适当减少。
如果本次使用式(42)结果,对总体参数估计的精度会更高,尽管会因样本量稍大而额外增加数据采集与处理成本。
也就是说,在本次使用更优抽样方法的情况下,利用式(42)测算本次人口普查质量评估调查样本量仍然是
有价值的。
(五)全国调查小区样本量在各个行政区及抽样层的分配
首先,将全国调查小区样本量,按各个行政区在上一次全国人口普查人口数比例在它们之间进行分配,然后每一个行政区将分配的调查小区样本量,进一步按各个抽样层的调查小区数比例在它们之间进行分配。
(六)最小样本量的规定
考虑到有些行政区或抽样层的人口数过少,从而导致分配的样本量过少这个问题,
对它们单独规定最小样本量。
这种做法在各国人口普查质量评估中被广泛采用。
【相关文献】
[1]胡桂华,廖歆.捕获—再捕获模型的统计学原理[J].统计与信息论坛,2012,27(9):8-13.
[2]杨贵军,刘艳玲,王清.捕获再捕获抽样估计量的模拟研究[J].统计与信息论坛,2011,26(3):3-7.
[3]胡桂华.论人口普查质量评估统计量[J].统计与信息论坛,2011,26(4):3-7.
[4]胡桂华,李红,吴东晟.人口普查质量评估中三系统估计量的应用[J].中国统计,2014(12):
52-53.
[5]胡桂华.人口普查质量评估中的三系统模型[J].中国人口科学,2013(6):27-38.
[6]胡桂华.人口普查质量评估中抽样后分层变量的选择[J].数理统计与管理,2015,34(2):254-263.
[7]陶然.扩展双系统估计模型及其匹配性质研究[J].数理统计与管理,2014,33(2):243-255.
[8]胡桂华.人口普查误差刍议[J].统计与信息论坛,2011,26(11):12-18.
[9]胡桂华.人口普查净误差构成部分的估计[J].统计研究,2011,28(3):90-100.
[10]胡桂华,刘维娜.人口普查数据:修正还是不修正[J].中国统计,2013(3):52-53.
[11]胡桂华.人口普查覆盖误差估计方法综述[J].统计与信息论坛,2013,28(9):39-46.
[12]胡桂华,吴东晟.人口普查质量评估调查的抽样设计[J].数量经济技术经济研究,2014,31(4):113-129.
[13]科克伦.抽样技术[M].张尧庭等译.北京:中国统计出版社,1985.
[14]胡桂华.美国2000年和2010年人口普查质量评估方法解读[J].数理统计与管理,2010,29(2):262-276.
[15]金勇进,杜子芳,蒋妍.抽样技术[M].北京:中国人民大学出版社,2010.
[16]金勇进,张喆.抽样调查中的权数问题[J].统计研究,2014,32(9):79-84
[17]胡桂华.人口普查质量评估中Logistic回归模型的应用[J].数量经济技术经济研究,2015,32(4):106-122.
[18]梁晓筠,陈亮.设计效应的计算[J].统计研究,2000(1):38-41.。