第二章抽样调查基本原理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章抽样调查基本原理
第一节有关基本概念
一、总体
总体也叫母体,它是所要认识对象的全体,是具有同一性质的许多单位的集合。组成总体的每个个体叫做单位。
在抽样以前,把总体划分成若干个互不重叠并且能组合成总体的部分,每个部分称为一个抽样单元,不论总体是否有限,总体中的抽样单元数一定是有限的。抽样单元又有大小之分,一个大的抽样单元可以分成若干个小的抽样单元,最小的抽样单元就是每一个个体。
总体应具备同质性、大量性和差异性的特征。在抽样调查中,通常将反映总体数量特征的综合指标称为总体参数。常见的总体参数主要有:总体总和、总体均值、总体比率、总体比例。
二、样本
样本是由从总体中所抽选出来的若干个抽样单元组成的集合体。抽样前,样本是一个n 维随机变量,属样本空间;抽样后,样本是一个n元数组,是样本空间的一个点。
抽样的效果好不好,依赖于样本对总体是否有充分的代表性。影响样本代表性的因素有以下几个方面:
(1)总体标志值分布的离散程度。
(2)抽样单元数的多少(或称样本容量的大小)。
(3)抽样方法。
一般将反映样本数量特征的综合指标称之为统计量。统计量是n元样本的一个实值函数,是一个随机变量,统计量的一个具体取值即为统计值。主要的样本统计量有:样本总和、样本均值、样本比率、样本比例。
三、必要样本容量和样本可能数目
样本中包含的抽样单元个数称为样本容量。样本容量与总体容量之比为抽样比,用f 表示,即f=n/N。
样本可能数目则是在容量为N的总体中抽取容量为n的样本时,所有可能被抽中的不同样本的个数。正确理解样本可能数目的概念,对于准确理解和把握抽样误差的计算、样本统计量的抽样分布、抽样估计的优良标准等一系列理论和方法问题都有十分重要的帮助。
四、抽样框
抽样框是在抽样前,为便于抽样工作的组织,在可能条件下编制的用来进行抽样的、记录或表明总体所有抽样单元的框架,在抽样框中,每个抽样单元都被编上号码。抽样框可以是一份清单(名单抽样框)、一张地图(区域抽样框),也可以是一段时序。
第二节样本统计量的抽样分布
标准的统计问题为:总体未知,故需从总体中抽取一个较小的、花费不多的随机样本,然后构造样本统计量,并以其估计总体。问题是用样本指标估计总体指标的可靠程度如何?为此要研究样本统计量的抽样分布。在此之前,有必要先回顾一下有关正态分布的知识。
一、正态分布
如果总体各个体的标志值以总体平均数为中心,形成钟型对称分布,其分布曲线向两侧扩展,逐渐向横轴逼近,无限延伸出去,但不接触横轴,则这种分布就叫做正态分布,或高斯分布、常态分布。服从正态分布的总体称为正态总体。
一个正态分布完全由总体的理论平均数和理论方差这两个参数所决定。其数学特征为:
如果一个随机变量X 服从正态分布,则其分布的密度函数(分布曲线方程)为:
2)(2121
)(σμπσ--=x e x f ,( -∞ 全部可能事件发生的概率之和等于1。代表各个体事物分布的正态曲线内面积表明着全部可能的事件,因此,分布曲线下x 轴以上的概论积分面积总保持为1, 因此,当σ不相同时,f(x)的形状也不相同,σ愈小,分布就愈集中在X 附近,σ愈大,分布就愈平坦。 任何正态分布,它的样本落在任意区间(a,b)内的概率等于直线x=a ,x=b ,横坐标和曲线f(x)所夹的面积(可由正态分布概率积分表查得)。经计算,正态总体的样本落在: (X -σ, X +σ)概率是68.27%; (X -2σ, X +2σ)概率是95.45%; (X -3σ, X +3σ)概率是99.73%; (X -1.96σ, X +1.96σ)概率是95%; 二、抽样分布 样本统计量是个随机变量。把根据所有可能样本计算出来的某一统计量的数值分布,称为抽样分布。抽样分布理论是理解抽样调查基本原理的基础。常见的抽样分布有极限分布和精确分布两类。极限分布也叫做大样本分布,它只有正态分布一种形式;精确分布又叫做小样本分布,其前提是总体服从正态分布,它是正态分布的导出分布,包括有t 分布、F 分布 和χ2分布等形式。 第三节 抽样误差 一、抽样调查中的误差来源 误差就是调查结果与现象的实际结果之间的偏差,它几乎在所有的统计调查中都或大或小的存在着。在抽样调查中,按照形成原因的不同,一般可将误差分成抽样误差和非抽样误差两大类。 抽样误差是用样本统计量推断总体参数时的误差,它属于一种代表性误差。抽样误差通常会随样本量的大小而增减;影响抽样误差的因素还有:所研究现象总体变异程度的大小;抽样的方式方法。 非抽样误差不是由于抽样引起的。它又包括调查误差、无回答误差、抽样框误差以及登记性误差。同抽样误差相反,非抽样误差是随着样本量的增加而增大的。 二、抽样误差的计算 由于从一个总体中抽取容量为n 的样本时,有多种可能的结果,所以样本指标是随机变量,而总体指标是唯一确定的常量,故抽样误差也是一个随机变量。 设θ为总体的某个待估参数,θˆ是通过样本资料计算而得到的关于θ的估计量,则估计的实际误差为θˆ-θ,由于θ是未知,故θˆ-θ是未知的。这表明根据某一个确定的样本,无法确定抽样误差的大小,因此,关于抽样误差的计算,是建立在误差分布理论基础上,从统计平均意义角度来考虑的。因为,对一个确定的总体按同一种抽样方法可能得到一系列不 同的样本,对每一个样本都会有一个估计的实际误差θˆi -θ,因此,抽样误差可以用所有这些可能的实际误差的均方误差表示。也即将抽样误差表示为 2)ˆ()ˆ(θθθ -=E MSE 其中)ˆ(θMSE 为估计量θˆ 的均方误差。由于θ未知,所以在通常情况下,)ˆ(θMSE 仍然是未知的。但)ˆ(θ MSE 可以分解成: 222222])ˆ([)]ˆ(ˆ[)]ˆ(ˆ[])ˆ([2])ˆ[)]ˆ(ˆ[])ˆ()ˆ(ˆ[)ˆ()ˆ(θθθθ θθθθθθθθ θθθθθθθ -+-=--+-+-=-+-=-=E E E E E E E E E E E E E E E MSE 式中第一项是估计量θˆ的方差,记作)ˆ(θ V 。)ˆ(θV 的平方根称为估计量θˆ的标准误差或标准差,记作)ˆ(θ S 。)ˆ(θS 与)ˆ(θE 之比称为估计量的变异系数,记为)ˆ(θC 。式中第二项是估计量θˆ的偏倚)ˆ(θ B 的平方(即θθθ-=)ˆ()ˆ(E B )。 一般情况下,均方误差说明了估计量的准确性,而估计量的方差则表明了其估计结果的精确性。通常将精确度定义为估计量方差的倒数,而将准确度定义为估计量均方误差的倒数。 当偏倚)ˆ(θ B 为零时,称θˆ为θ的无偏估计量。此时,θˆ的方差就等于它的均方误差,即 )ˆ()ˆ(θθ MSE V = 如果θˆ随样本容量n 的增大趋近于θ,则称θˆ为θ的一致估计。 第四节 抽样估计 抽样估计就是以样本的实际资料为依据,计算一定的样本统计量,并按照一定的方法对总体参数作出估计和推断。 一、抽样估计的特点 第一,抽样估计在逻辑上运用的是归纳推理而不是演绎推理。 第二,抽样估计在方法上运用不确定的概率估计法而不是运用确定的数学分析法。 第三,抽样估计的结论存在着一定程度的抽样误差。 二、抽样估计的方法 抽样估计的方法多种多样。如果以估计中所依据的资料不同来区分,一般可以有简单估计、比估计和回归估计等三种方法。简单估计是最简单、最基本的一种估计方法,在实际中应用也最为广泛。 如果以估计结果的表示方式来区分,则抽样估计可以有两种形式,即定值估