简单随机抽样

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
25
对于简单随机抽样,总体均值的估计量为:
yi ˆ Y y i 1 n
n
其中,n是样本量,yi是样本中第i个单元的值, 对应某特定样本的值即是估计值。也就是说,将样 本中所有yi的值加起来再除以样本量就得到了总体 平均数的估计值。
26
在简单随机抽样中,y 既是总体均值的一致 估计,也是总体均值 Y 的无偏估计。
29
ˆ 2 的 选 取 , 我 们通 常 使用 样 本 方 对 于估 计 量 S 2 n 差s 。 ( yi y ) 2 可以证明: 2 i
s
N i

n 1
是总体方差 S 2
2 ( y Y ) i
N 1
的无偏估计量。
30
三、其他估计量 当总体为正态分布时,用 Me(中位数)来估 计Y 。 可以证明:
第三章 简单随机抽样(SRS)
第一节 概述
第二节
第三节
估计量及其误差
样本量的确定
1
第一节
一、定义
概述
二、抽取方法
三、方法评估 四、两个试验
2
一、定义
所有概率抽样的出发点和理论基础都是简单 随机抽样。简单随机抽样是一种一步抽样法,它 保证样本量为n的每个可能的样本都有相同的被抽 中的概率p=n/N。
24
如果一个估计量对于所有可能样本计算的估 计值的平均数等于参数的真值,称这个估计量是 无偏的。 另一个所需要的估计量的性质是它的抽样分 布应与其平均数尽可能地靠拢。对这种性质的一 个度量指标是抽样方差。 我们通常希望估计量具有一些好的性质:其 中的一个性质就是估计量应是无偏的或近似无偏 的,另一个是抽样方差较小的估计量被认为是精 确的:抽样方差越小,估计的精度越高。
20
在估计时,需要考虑的另一个问题是,估计 针对的是总体的什么范围。估计既可以针对整个 调查总体,也可以针对特定的子总体或特定的域。 例如,除需要计算全国估计值外,可能还需要省 及地市的估计值。同时,还可能需要诸如分性别、 年龄、受教育水平等这样的域估计值。
21
对下述问题的回答将有助于决定如何计算估 计值: —— 需要估计什么类型的参数 ? 是比例,均 值,还是总量? —— 数据是什么类型的 ? 是定性数据,还是 定量数据? ——采用怎样的权数?是自加权设计吗? ——需要估计的是什么样的域?
37
第三节
一、引言
样本量的确定
二、精度与样本量
三、费用与样本量
四、精度与费用间的协调
一、引言 1.为什么要确定样本量? 由于样本量直接影响到样本的代表性、调查 的费用、完成调查所需要的时间、所需调查人员 的数量以及其他一些现场操作的限制条件。 2.影响样本量的因素 估计量的精度要求;提供的经费能支持多大 的样本;调查的时间要求;需要和能招聘到的合 格调查员数量等。
13
14
可见四个人都对颜色存在偏好,如第一个人 偏爱绿色,第二个人偏爱蓝色等。这种由于对颜 色偏好所引起的偏估类型,可称之为颜色偏误。
15
从上述两个试验可以发现,利用人为的随意 抽样方法都会产生偏差。每个试验者均有较为喜 欢的数字和颜色,因此,使得样本变成非随机的, 进而给抽样估计带来困难。
16
6
如果一种抽样策略的抽样方差比另一种抽样 策略的抽样方差小,我们就称这种抽样策略更有 效率(这种效率也称统计效率)。一个有较小抽 样方差的估计量具有较高的精度。 基什提出用设计效果(Deff)来衡量一种抽 样策略的效率。
一个复杂抽样设计的抽 样方差 Deff 相同样本量的简单随机 抽样的抽样方差
ˆ) 时, V 。 (Y (y) s V
33
关于子总体(域)的估计
实际中常需要对大总体中的一部分(即子总体) 进行估计。 在简单随机抽样条件下,无论是定量数据还是 定性数据,对于感兴趣第j子总体(域)的大小都可 以用下式估计:
ˆ N 域
iS r 域
w
i
34
对定量数据,域总值的估计值为:
简单随机抽样有两个相互等价的定义。
3
随机样本的优点: 1.随机选择可以消除“偏心”;也就是说随机 抽样把偏差给消灭了。 2.如果我们从同一个总体,重复抽取许多大小 一样的随机样本,所有样本的变异状况就会遵循某 种可预测的形态 (pattern) 。从这个可预测的形态 可以得知,由较大样本所得结果的变异.会小于小 样本结果的变异。
7
与其他抽样技术相比,简单随机抽样有以下优
点: 是最简单的抽样技术; 抽样框不需要其他(辅助)信息,唯一需要的 只是一个关于调查总体所有单元的一个完全的清单 和与其如何联系的信息; 关于样本量的确定、总体估计与方差估计都有 现成的标准公式可以利用,因此技术发展已经成熟。
8
简单随机抽样的缺点是: 抽样框中即使有现成的辅助信息也不加利用, 使得估计的统计效率较其他利用辅助信息的样本设 计低; 由于样本在总体中的地理分布范围比较广,如 果采用面访,费用较高; 有可能抽到一个“差的”样本。原因是这种方 法不对抽中哪一个样本进行控制,所有样本量为n的 样本都有相同的被抽中的机会,因此抽出来的样本 有可能分布不好,不能很好地代表总体; 如果不用计算机,而用随机数表抽一个大样本 将十分单调劳神。
22
二、估计量的性质
不同的样本将得到不同的估计值。 一个估计量的抽样分布,是指使用相同的抽样 设计,从同一个总体抽取的所有可能样本的估计值 的分布。 显然,这样的抽样分布依赖于估计量的形式和 所采用的抽样设计(例如简单随机抽样、系统抽样、 分层抽样、多阶抽样等)。
23
要想知道抽样分布,就必须知道样本是怎么抽 取的。在概率抽样的情况下,我们知道样本是如何 抽取的,因此可以确定其抽样分布。对非概率抽样, 由于无法得知各个不同样本的入选概率,从而不能 计算抽样分布。抽样分布对确定估计量的一些重要 性质,例如偏倚及抽样方差等非常重要。
ˆ Y 域
iS r 域
w y
i
i
对定量数据,域均值的估计值为:
ˆ Y域
iS r 域
w y
i
i
iS r 域
w
i
3i iS r 域 C
ˆ P 域
w
i
iS r 域
w
可以证明,上述几个估计是无偏的。
36
四、抽样误差的其它度量 有多种方式可以用来表示估计量的抽样误差 的大小,除方差外,下列的一些度量也会经常用 到: —— 标准差 ( 指估计量的标准差,也称标准 误); ——变异系数; ——误差限; ——臵信区间。
第二节
估计量及其误差
一、数据类型
二、估计量的性质 三、在简单随机抽样条件下的其他估计量 四、抽样误差的其它度量
17
一、数据类型
几乎每项调查都需要计算诸如比例、均值、总 量这样的简单描述统计量,当然也会用到一些更为 复杂的统计量和分析方法。大多数调查都要求收集 很多个指标,这些指标也称作变量。变量既可以是 定性的 ( 或称分类的 ) ,也可以是定量的 ( 或称计量 的 )。
3.必要样本量和可能样本量 必要样本量是由精度要求出发所确定的样本 量,是能满足精度要求的最少样本量; 可能样本量是由费用约束条件出发所确定的 样本量,是在一定费用预算下最多所能调查的样 本量。
二、精度与样本量
(一)精度的表示方法 1.用抽样方差或抽样误差 V (ˆ) 来表示,方差 越小精度越高; 2.用臵信度和误差限来表示,以 ˆ 表示一个任 ˆ) 为估计标准误,一定臵信度的误 意的估计量, S ( ˆ) ,z值与臵信度相对应。 差限为 zS (
3、一定臵信度下用相对误差表示精度
ˆ ˆ zS ( ) P 1
其中:1-α为臵信度或可靠性
1
ˆ) zS (

称做估计精度
(二)确定精度需要考虑的因素 1.可接受(允许)多大的误差限? 如果调查结果将用于进行一项有重大影响或 有较大风险的决策,那么,客户对估计值就需要 较高的精度;如果他们只是简单地希望取得对所 研究总体某个指标的感性认识,那么,低一点的 精度就可以满足要求了。 2.是否需对子总体进行估计? 如果需要估计子总体,则应该确定各子总体 合适的精度,不同的子总体对精度的要求可能不 同。
4
二、抽取方法 抽样可以是放回的,也可以是不放回的。如 果抽样比非常小,则放回抽样与不放回抽样实际 上是差不多的。一般情况下,不放回抽样的结果 更精确,实际操作也更方便些。在本课程中,除 非特别指明,抽样都是指不放回的。
简单随机抽样一般有抽签法和随机数法两种 实施方法。
5
三、方法评估 简单随机抽样被用作评估其他抽样策略的效 率的基准,这里抽样策略是指抽样方法与所用估 计量的结合。一个估计量就是一个用来计算估计 值的公式。估计量的抽样误差是通过其抽样方差 来测量的,而抽样方差定义为对采用这种抽样设 计的所有可能样本,估计值距其平均值的差(称 为离差)平方的平均。
27
估计量 y 的方差为:
( N n) 2 1 f 2 V ( y) E( y Y ) S S nN n
2
V ( y ) 可以用下式估计 :
2 ˆ n S ˆ V ( y ) (1 ) N n
28
项 n/N 称为抽样比,用 f 表示。从这个公式我 们可以看出,随着样本量n的增加,均值估计的抽 样方差将减少。当进行普查即n=N时,均值估计就 完全没有抽样方差。当抽样比很小即样本量相对 于总体很小时,因子(1-n/N)可以忽略。 Cochran(1977) 说过,当抽样比不超过 5 %, 甚至在很多情况下高达 10 %时,这个因子都可以 被忽略。另外,应注意上述公式仅应用于当回答 率为100%,且没有使用任何辅助信息对样本权数 进行调整的情形。
19
如果度量的单位是诸如米或年这种数量形式, 就称这样的数据为定量数据。定量数据一般是对 “多少”、“多大”这样的问题所作的回答,例 如年龄、孩子的数量、工作的小时数、支出与收 入、血压等等。 对于不同类型的变量,需要使用不同类型的估计。 通常,对定性变量,我们计算比例与总数;对定 量变量,我们计算平均数与总量。
E(Me) Y
1.57 V ( Me) 2n n n
2 2

2
31
在有放回简单随机抽样时,样本中有重复单 元,去掉重复单元,用其中d个不同单元的信息来 估计,即 d
1 y d
y
i
i
可以证明, E( y ) Y 。方差介于放回与无放回之间:
V ( y不放回 ) V ( y) V ( y放回 )
11
可以看出,六个人都对数字存在偏好,如第一 个人更加偏好数字 4 、 3 、 0 ;第二个人则偏好数字 1 、 8 、 4 ;等等。这种由于数字偏好所引起的偏估类型 可称之为数字偏误。
12
试验二:着色试验 让四个人将 10×10方格的纸板着色,可供选 择的颜色有蓝、绿、红、白和黄色五种,对每一 个四分象限来说,规定每种颜色只能在每行和每 列出现一次。每个方格以其所在的列号与行号表 示,如(4, 6)代表第四列第六行的方格。请四个 人对这 100 个方格随意选择行列号,而对其着色。 将这些由这四个人着色所得到的资料形成次数分 布表如下:
32
总体N个单元的值Y1,…,YN,已知Y1很小,YN 很大,用估计量
y c ˆ Ys y c y 当样本单元中包括 Y1不包括YN 时 当样本单元中包括 YN 不包括Y1时 其他
ˆ ) Y, 可以证明:E (Y s
且当
2c (YN Y1 nc)>0 N 1
18
样本单元可以按某些指标划分成不同的类别, 所得的数据就称为分类数据或定性数据。这些变 量中,如性别或婚姻状况,通常只有几个可能的 取值。民意调查中,通常用量表的形式收集所需 的数据也是定性数据,例如很赞成,赞成,既不 赞成也不反对,不赞成,很不赞成。必须注意的 是,这种情况下每个单元属于而且只属于其中一 个类别。
9
四、两个试验 也许有人会认为,在抽样时不用随机数表, 而采取随意抽选的办法也可以达到预期的抽样效 果。表面上看,这种想法似乎有一定道理,但实 际试验的结果证明随意抽样不等于随机抽样。以 下是两个有名的试验:
10
试验一:随意数试验
让六个人写下100个自己随意想到的三位数, 将这些数内的 0 、 1 、 2 、 … 、 9 数字列成次数分布 表如下:
相关文档
最新文档