抽样调查的基本原理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

20
本章内容讲授结束
( X -σ, X +σ)概率是 68.27%; ( X -2σ, X +2σ)概率是 95.45%; ( X -3σ, X +3σ)概率是 99.73%; ( X -1.96σ, X +1.96σ)概率是 95%。
10
二、抽样分布 样本统计量是个随机变量。 样本统计量是个随机变量 。 把根据所有可能 样本计算出来的某一统计量的数值分布, 样本计算出来的某一统计量的数值分布 , 称为抽 样分布。 样分布 。 抽样分布理论是理解抽样调查基本原理 的基础。 的基础 。 常见的抽样分布有极限分布和精确分布 两类。 两类。 极限分布也叫做大样本分布, 极限分布也叫做大样本分布 , 它只有正态分 布一种形式。 布一种形式。 精确分布又叫做小样本分布, 精确分布又叫做小样本分布 , 其前提是总体 服从正态分布, 它是正态分布的导出分布, 服从正态分布 , 它是正态分布的导出分布 , 包括 分布、 分布和χ 分布等形式。 有t分布、F分布和χ2分布等形式。
第二章
第一节 第二节 第三节 第四节
抽样调查的基本原理
有关基本概念 样本统计量的抽样分布 抽样误差 抽样估计
1
第一节 有关基本概念
一、总体 总体也叫母体, 它是所要认识对象的全体, 总体也叫母体 , 它是所要认识对象的全体 , 是 具有同一性质的许多单位的集合。 具有同一性质的许多单位的集合 。 组成总体的每个 个体叫做单位。 个体叫做单位。 在抽样以前, 在抽样以前 , 把总体划分成若干个互不重叠并 且能组合成总体的部分, 且能组合成总体的部分 , 每个部分称为一个抽样单 不论总体是否有限, 元 , 不论总体是否有限 , 总体中的抽样单元数一定 是有限的。抽样单元又有大小之分, 是有限的 。 抽样单元又有大小之分 , 一个大的抽样 单元可以分成若干个小的抽样单元,最小的抽样单 单元可以分成若干个小的抽样单元, 元就是每一个个体。 元就是每一个个体。
6
四、抽样框 抽样框是在抽样前, 为便于抽样工作的组织, 抽样框是在抽样前 , 为便于抽样工作的组织 , 在可能条件下编制的用来进行抽样的、 在可能条件下编制的用来进行抽样的 、 记录或表 明总体所有抽样单元的框架, 在抽样框中, 明总体所有抽样单元的框架 , 在抽样框中 , 每个 抽样单元都被编上号码。 抽样单元都被编上号码。 抽样框可以是一份清单( 名单抽样框) 抽样框可以是一份清单 ( 名单抽样框 ) 、 一张 地图(区域抽样框) 也可以是一段时序。 地图(区域抽样框),也可以是一段时序。
19
四、估计量的优良标准 要判断一种估计量的好环, 要判断一种估计量的好环 , 仅从某一次试验 的结果来衡量是不够的, 而应从多次重复试验中, 的结果来衡量是不够的 , 而应从多次重复试验中 , 看这种估计量是否在某种意义上最接近于被估计 参数的真值。 一般地说, 参数的真值 。 一般地说 , 用抽样指标估计总体指 标应该有三项基本要求或标准: 标应该有三项基本要求或标准: 1.无偏性 2.一致性 3.有效性
11
Hale Waihona Puke 第三节 抽样误差一、抽样调查中的误差来源 误差就是调查结果与现象的实际结果之间的 偏差。在抽样调查中,按照形成原因的不同, 偏差 。 在抽样调查中 , 按照形成原因的不同 , 一 般可将误差分成抽样误差和非抽样误差两大类。 般可将误差分成抽样误差和非抽样误差两大类。 抽样误差是用样本统计量推断总体参数时的 误差,它属于一种代表性误差。 误差 , 它属于一种代表性误差 。 抽样误差通常会 随样本量的大小而增减; 随样本量的大小而增减 ; 影响抽样误差的因素还 所研究现象总体变异程度的大小; 有 : 所研究现象总体变异程度的大小 ; 抽样的方 式方法。 式方法。
12
非抽样误差不是由于抽样引起的。 非抽样误差不是由于抽样引起的 。 它又包括 调查误差、 无回答误差、 调查误差 、 无回答误差 、 抽样框误差以及登记性 误差。同抽样误差相反, 误差 。 同抽样误差相反 , 非抽样误差是随着样本 量的增加而增大的。 量的增加而增大的。
13
二、抽样误差的计算 由于从一个总体中抽取容量为n的样本时, 由于从一个总体中抽取容量为n的样本时,有 多种可能的结果,所以样本指标是随机变量, 多种可能的结果 , 所以样本指标是随机变量 , 而 总体指标是唯一确定的常量, 总体指标是唯一确定的常量 , 故抽样误差也是一 个随机变量。 个随机变量。
16
区间估计则是在一定的概率保证程度(置信度) 区间估计则是在一定的概率保证程度(置信度) 之下,根据允许的最大绝对误差范围, 之下 , 根据允许的最大绝对误差范围 , 确定出一 个以点估计值为中心的区间作为总体待估参数θ 个以点估计值为中心的区间作为总体待估参数 θ 的估计区间。 的估计区间。
17
14
第四节 抽样估计
抽样估计就是以样本的实际资料为依据, 抽样估计就是以样本的实际资料为依据 , 计 算一定的样本统计量, 算一定的样本统计量 , 并按照一定的方法对总体 参数作出估计和推断。 参数作出估计和推断。 一、抽样估计的特点 第一, 第一 , 抽样估计在逻辑上运用的是归纳推理 而不是演绎推理。 而不是演绎推理。 第二, 第二 , 抽样估计在方法上运用不确定的概率 估计法而不是运用确定的数学分析法。 估计法而不是运用确定的数学分析法。 第三, 第三 , 抽样估计的结论存在着一定程度的抽 样误差。 样误差。
7
第二节 样本统计量的抽样分布
标准的统计问题为:总体未知, 标准的统计问题为:总体未知,故需从总体中 抽取一个较小的、花费不多的随机样本, 抽取一个较小的、花费不多的随机样本,然后构造 样本统计量,并以其估计总体。 样本统计量,并以其估计总体。问题是用样本指标 估计总体指标的可靠程度如何? 估计总体指标的可靠程度如何 ? 为此要研究样本统 计量的抽样分布。 计量的抽样分布。 在此之前, 在此之前,有必要先回顾一下有关正态分布的 知识。 知识。
9
任何正态分布,它的样本落在任意区间(a,b) 任何正态分布 , 它的样本落在任意区间 (a,b) 内的概率等于直线x=a x=b, 横坐标和曲线f(x) x=a, 内的概率等于直线 x=a , x=b , 横坐标和曲线 f(x) 所夹的面积( 可由正态分布概率积分表查得) 所夹的面积 ( 可由正态分布概率积分表查得 ) 。 经 计算,正态总体的样本落在: 计算,正态总体的样本落在:
ˆ) = E (θ − θ ) 2 ˆ MSE (θ
一般情况下, 一般情况下 , 均方误差说明了估计量的准确 性 , 而估计量的方差则表明了其估计结果的精确 通常将精确度定义为估计量方差的倒数, 性 。 通常将精确度定义为估计量方差的倒数 , 而 将准确度定义为估计量均方误差的倒数。 将准确度定义为估计量均方误差的倒数。
15
二、抽样估计的方法 抽样估计的方法多种多样。 抽样估计的方法多种多样 。 如果以估计中所 依据的资料不同来区分,一般可以有简单估计、 依据的资料不同来区分 , 一般可以有简单估计 、 比估计和回归估计等三种方法。 比估计和回归估计等三种方法 。 简单估计是最简 最基本的一种估计方法, 单 、 最基本的一种估计方法 , 在实际中应用也最 为广泛。 为广泛。 如果以估计结果的表示方式来区分, 如果以估计结果的表示方式来区分 , 则抽样 估计可以有两种形式,即定值估计和区间估计。 估计可以有两种形式,即定值估计和区间估计。 定值估计是指给所要估计的总体参数只给出一个 明确的点估计值,同时确定出估计结果的误差。 明确的点估计值,同时确定出估计结果的误差。
18
当调查变量的总体方差σ2未知时,则用相应 当调查变量的总体方差σ 未知时, 的样本方差s 代替。然而, 的样本方差s2代替。然而,这时有可能会使误差产 生一个增量,特别是当样本较小时, 生一个增量,特别是当样本较小时,更容易影响估 计的精度。因此,为了保持1 的置信度, 计的精度。因此,为了保持1-α的置信度,就应该 适当加宽置信区间,即用较大的t 值来代替Z 适当加宽置信区间,即用较大的tα/2值来代替Zα/2。 此时,置信区间就可以表示成 此时, ), ( θˆ -tα/2 ( θˆ ), θˆ +tα/2 ( θˆ )) 其中t 的值可通过查t分布临界值表来确定, 其中tα/2的值可通过查t分布临界值表来确定, ˆ 在这里自由度为df=n df=n)表示以 代替σ 表示以s 在这里自由度为df=n-1;( )表示以s2代替σ2后 θ ˆ 对抽样标准误S( )的估计量 的估计量。 对抽样标准误S( )的估计量。 θ
2
总体应具备同质性、 大量性和差异性的特征。 总体应具备同质性 、 大量性和差异性的特征 。 在抽样调查中, 在抽样调查中 , 通常将反映总体数量特征的综合 指标称为总体参数。常见的总体参数主要有: 指标称为总体参数。常见的总体参数主要有: 总体总和、 总体均值、 总体比率、 总体比例。 总体总和 、 总体均值 、 总体比率 、 总体比例 。
5
三、必要样本容量和样本可能数目 样本中包含的抽样单元个数称为样本容量。 样本中包含的抽样单元个数称为样本容量 。 样 本容量与总体容量之比为抽样比,用f表示,即 f=n/N。 f=n/N。 样本可能数目则是在容量为N 样本可能数目则是在容量为N的总体中抽取容量 的样本时,所有可能被抽中的不同样本的个数。 为n的样本时,所有可能被抽中的不同样本的个数。 正确理解样本可能数目的概念, 正确理解样本可能数目的概念 , 对于准确理解和把 握抽样误差的计算、样本统计量的抽样分布、 握抽样误差的计算 、 样本统计量的抽样分布 、 抽样 估计的优良标准等一系列理论和方法问题都有十分 重要的帮助。 重要的帮助。
3
二、样本 样本是由从总体中所抽选出来的若干个抽样单 元组成的集合体。抽样前,样本是一个n维随机变 元组成的集合体 。 抽样前 , 样本是一个 n 属样本空间;抽样后,样本是一个n元数组, 量 , 属样本空间 ; 抽样后 , 样本是一个 n 元数组 , 是样本空间的一个点。 是样本空间的一个点。 抽样的效果好不好, 抽样的效果好不好,依赖于样本对总体是否有 充分的代表性。 充分的代表性。影响样本代表性的因素有以下几个 方面: 方面: 总体标志值分布的离散程度。 (1)总体标志值分布的离散程度。 抽样单元数的多少(或称样本容量的大小) (2) 抽样单元数的多少 ( 或称样本容量的大小 ) 。 抽样方法。 (3)抽样方法。
三、置信区间 一般地说,若估计量是无偏的,且呈正态分布, 一般地说,若估计量是无偏的,且呈正态分布, 则参数θ的置信度为1 则参数θ的置信度为1-α的置信区间可以写成 ), ( θˆ -KS( θˆ ), θˆ +KS( θˆ )) 当调查变量的总体方差σ 已知时, 当调查变量的总体方差σ2已知时,上述置信 区间可表示为 ), ( θˆ -Zα/2S( θˆ ), θˆ + Zα/2S( θˆ )) 即取K= 即取K= Zα/2, Zα/2的值可以通过查正态分布 双侧临界值表加以确定。 双侧临界值表加以确定。
8
一、正态分布 一个正态分布完全由总体的理论平均数和理论 方差这两个参数所决定。 如果一个随机变量X 方差这两个参数所决定 。 如果一个随机变量 X 服从 正态分布,则其分布的密度函数(分布曲线方程) 正态分布,则其分布的密度函数(分布曲线方程)为:
1 f (x) = e σ 2π
1 x−µ 2 − ( ) 2 σ
4
一般将反映样本数量特征的综合指标称之为 统计量。统计量是n元样本的一个实值函数, 统计量。统计量是n元样本的一个实值函数,是一 个随机变量,统计量的一个具体取值即为统计值。 个随机变量 , 统计量的一个具体取值即为统计值 。 主要的样本统计量有:样本总和、样本均值、 主要的样本统计量有 : 样本总和 、 样本均值 、 样 本比率、样本比例。 本比率、样本比例。
相关文档
最新文档