市场调查分析师考试《调查概论(中级)》教材讲义-第六章 抽样估计【圣才出品】
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第六章抽样估计
第一节抽样估计的基本原理
一、抽样估计是统计学中参数估计的具体应用
抽样估计是根据对样本的观察结果来估计推断总体的某些特征的。
在抽样调查的抽样估计中它与传统的统计学中的参数估计的区别:
1.在传统的统计学中往往假设被研究的总体是个无限总体,建立在可实验观察的基础上,是可以无限进行的。而抽样调查在现实中通常是有限总体,而且大都是社会经济现象,无法重复进行。
2.在传统的统计学中,假定样本观察值是独立同分布的,而抽样调查的观察值通常是在有限总体中不重复抽样,因而观察值之间是不独立的,使得一些抽样方差的计算比较复杂。
3.参数估计的理论中通常假定总体分布的形态是已知的,从而在理论上比较侧重于讨论小样本的精确分布。而抽样调查中研究对象的总体分布是未知的,使用比较多的是大样本情况下估计量的近似分布,即正态分布。
4.参数估计中讨论的样本,通常是等概率的随机抽样,而抽样调查中往往由于抽样单元的大小不同或分层抽样等原因而实施不等概率抽样和多种方式的抽样。
最后,传统的参数估计主要是考察抽样误差,而抽样调查除了考察抽样误差外,还要注意非抽样误差。
二、抽样分布
在抽样估计中,要得到总体参数的估计是从样本出发,对样本数据进行必要的加工处理
和计算,所得到的结果称为统计量或估计量,用相应的估计量来估计总体参数。然而,估计量是一个随机变量,它的具体估计值是随着不同的样本单元而变化的,因而就有一定的分布,这个分布就叫做抽样分布。
抽样调查主要是根据估计量的抽样分布来对总体进行区间估计。
三、大数定律和中心极限定理
大数定律是用样本估计总体的理论基础。其直观含义是随机事件的规律性是在大量观察中才能显露出来,虽然在每次试验中不可避免地出现随机误差,但随着观察次数的增加,随机影响将相互抵消而使规律具有稳定的性质。
中心极限定理则奠定了样本估计量对总体参数进行区间估计的理论基础。其直观含义是不论总体服从什么分布,只要方差有限,在观察值足够多时,许多估计量的分布,就趋向正态分布。
四、置信区间和置信概率之间的关系
若从总体中抽取一个样本,用样本的估计值直接对总体的有关参数作一个数值点的估计,这种估计方法称做点估计。区间估计是给出总体参数的一个取值范围,说明这一结论的可靠性。置信区间表达了参数的取值范围,而置信概率表达了这一结论的可靠性。
第二节加权
设计权数指的是每个样本单元所代表的调查总体的单元数,它由抽样设计所决定。以W表示设计权数,其中下标d表示设计的意思。设计权数其实就是样本单元的入样概率的d
倒数。
一、等概率抽样加权
如果所有样本单元的设计权数都相同,那么称这样的抽样设计为自加权设计,这种情况发生在当每个单元都有相同的入样概率的时候,对于自加权的抽样设计,如果没有随后的权数调整,那么在计算诸如总值、均值等估计量时可以将其忽略。
二、不等概率抽样设计的加权
当采用的抽样方法不是等概率抽样时,正确的使用权数就显得尤为重要。
三、对无回答的权数调整
无回答是指由于某些原因,从抽中的样本单元无法获得所需要的信息。它可以是样本单元没有提供或者没有完全提供所需的信息,也可以是提供的信息中有一部分无法使用。
无回答有两种主要类型:单元无回答和项目无回答。
项目无回答是指被调查者虽然接受了调查,但是仅仅回答了问卷的一部分,因而不能得到某些项目的信息,在这种情况下,最常用的调查方法就是对缺失数据的进行插补。
单元无回答主要是指一个样本单元所有或几乎所有的数据都缺失。处理无回答最简单的办法就是忽略它。在一些特殊的情况下对无回答进行调整后所得的均值或比例的估计值,与未作任何调整的估计值相比并没有任何改进。然而对总值的估计则不同,此时如果不对无回答进行弥补,则会导致对总值的低估。由无回答所导致的这种低估称做无回答偏差。如果发现忽略单元无回答是不适当的,最常用的办法是对进行调整。当回答单元和无回答单元具有相似的调查指标时,这是一个合理的假定。此时无回答的设计权数需在回答单元之间进行重新分配,通常的做法是将一个设计权数乘以一个无回答调整因子,由此得到无回答的调整权
数。
无回答调整因子是原样本单元的权数之和与给出回答的单元的权数之和的比值。如果可以假定所有的无回答单元与回答单元具有相似的调查指标,那么可以对所有的回答单元使用相同的无回答调整因子。
第三节总体均值、比例及总量的简单估计
一、数据类型
样本单元可以按某些指标划分成不同的类别,所得的数据就称为分类数据或定性数据。如果度量的单位是诸如米或年这种数量形式,就称这样的数据为定量数据。定量数据一般是对“多少”或“多大”这样的问题所作的回答。
1.总体总量的估计
无论对定性还是定量数据,调查总体中单元总数的估计都是对回答单元的最终调整权数之和:
ˆr
i i S N W ∈=∑其中,i 是样本中回答单元的编号,i W 是它的最终调整权数,r S 是所有由回答单元组成的集合。
对定量数据,总体总值(如医疗保健总支出)的估计,是每个回答单元的权数i W 与其值i Y 的乘积之和:
ˆr
i i i S Y WY ∈=∑2.总体比例的估计
总体比例的估计,是具有某特征的单元总数的估计值除以总体中单元总数的估计值:
ˆr r i i S C
i i S W P W
∈∈=∑∑ 其中C 是具有特定特征的单元集合。3.总体平均数的估计总体平均数的估计值,是定量数据总值的估计值除以总体单元总数的估计值:
ˆr r i i i S i
i S WY
Y W ∈∈=∑∑4.总体域的估计
无论是定量数据或定性数据,感兴趣域的大小都可以用下式估计:
ˆ=r i
i S N W ∈∑
域域
对定量数据,域总值的估计值为:
对定量数据,域均值的估计值为:
对于定性和定量数据,域比例的估计值为:
二、等概率抽样设计的比例、平均数与总量的估计
假设所有回答单元都有相同的最终权数,有一个定量变量(年龄)和两个定性变量(性别和