03第三章 简单随机抽样
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
由四个单元中不放回抽取2个单元的可能结果
样本 样本观测值 样本均值 U1 U2 Y1 ,Y2 U1 U3 Y1 ,Y3 U1 U4 Y1 ,Y4 U2 U3 Y2 ,Y3 U2 U4 Y2 ,Y4 U3 U4 Y3 ,Y4
Y1 + Y2 2
Y1 + Y3 2
Y1 + Y4 2
Y2 + Y3 2
Y2 + Y4 2
因此,y 的样本方差为
1 3 4 1 1 3 4 2 V ( y ) = E ( y Y ) = ∑∑ (Yi + Y j ) = ∑∑ (Yi 2 + Y j2 + 2YiY j ) Y 2 6 i =1 j i 4 24 i =1 j i
2
又已知 (i=1,2,3,4)在三个样本内出现,而
二,估计量
1,总体均值和总和的简单估计量 在简单随机抽样条件下,总体均值的简单估计量为: n
Y =y=
∑y
i
i
可以证明,样本均值是总体均值的无偏估计,即:
E( y) = Y
n
因此总体总和的简单估计量为:
Y = Ny = N ∑ yi
i n
n
N = n
∑y
i
n
i
其中N/n也称作膨胀因子.
2,总体比例的简单估计量 抽样调查中,经常需估计总体中具有某种特性的单元总数 及其在总体中所占的比例(即成数). 设总体中的N个抽样单元按其是否具有某种特性可分成D和 D′ D 两类,D类具有某种特性, ′类不具有某种特性.D类有N1 个单元, ′类有 N 0个单元,则: D
再次,是衡量其他抽样效果的比较标准.抽样 效果首先体现在抽样误差的大小上.而反映或 者比较某一抽样形式的误差大小,需要有一个 比较指标,这通常采用抽样设计效果指标 Deff, 这个抽样设计效果是以某一抽样形式的方差与 简单随机抽样的方差进行对比,设前者为V(θ1) , 后者为V(θ0),那么,抽样设计效果为:
n 式中, 为某一抽样形式的样本单位数, n′ 表示 在相同的抽样方差下,采用简单随机抽样形式所需要 n 的样本单位数.在上面的例子中, =100户, =0.51, Deff 所以, =100÷0.51=196 n′
二,简单随机抽样的具体实施方法 (一)抽签法 抽签法是先对总体N个抽样单元分别编上1到N的 号码,再制作与之相对应的N个号签并充分摇匀 后,从中随机地抽取n个号签(可以是一次抽取n 个号签,也可以一次抽一个号签,连续抽n次), 与抽中号签号码相同的n个单元即为抽中的单元, 由其组成简单随机样本. (二)随机数法 随机数法就是利用随机数表,随机数骰子或计算 机产生的随机数进行抽样.
第二节
总体参数的估计
一,基本原理 U U U 设总体包含有 U 1, 2, 3, 4 四个单元,其观测值分别 Y Y Y 为 Y1 , 2 ,3 , 4 ,则总体均值为=( Y1 + Y2 + Y3 + Y4 )/4. 现用简单随机抽样法抽一个单元并以其观测值来估计 总体均值,则这四个单元每个都是可能的样本,而每 个可能样本被抽中的概率均为四分之一.每个样本观 测值本身就可以当作总体均值的一个估计值.显然, 根据不同样本估计的结果与总体均值之间通常并不一 致,而是存在一个的误差.下表列出了抽到不同样本 时的结果:
3.直接从总体中抽取样本,未能充分利用关于总 体的各种其它已知信息,以有效地提高样本的代 表性,并进而提高抽样的估计效率. 4.简单随机抽样要求在抽样前编制出抽样框,并 对每一个总体抽样单元进行编号,而且当总体抽 样单元的分布比较分散时,样本也可能会比较分 散,这些都会给简单随机抽样方法的运用造成许 多的不便,甚至在某些情况下干脆无法使用. 结论:在此基础上研究其它抽样技术显得更加重 要.
期望 次数 30 30 30 30 30 30 30 30 30 30 300
试验二:着色试验. 让四个人将10×10方格的纸板着色,可供选择的 颜色有蓝,绿,红,白和黄色五种,对每一个四 分象限来说,规定每种颜色只能在每行和每列出 现一次.每个方格以其所在的列号与行号表示, 如(4,6)代表第四列第六行的方格.请四个人对 这100个方格随意选择行列号,而对其着色.将 这些由这四个人着色所得到的资料形成次数分布 表如下: 四个人对方格着色的次数分布
第三章 简单随机抽样
第一节
简单随机抽样概述
一,简单随机抽样的概念
定义之一:简单随机抽样就是从总体N个抽样单元中,一次 A =( N ) 种不同的样本被抽到 抽取n个单元时,使全部可能的 n 的概率均相等,即都等于1/A. 定义之二:简单随机抽样是从总体的N个抽样单元中,每次 抽取一个单元时,使每一个单元都有相等的概率被抽中, 连续抽n次,以抽中的n个单元组成简单随机样本. 按简单随机抽样,抽到的样本称为简单随机样本. 简单随机抽样是一种最简单,最基本的抽样组织形式.它 适用于均匀总体,即具有某种特征的总体单位均匀地分布 于总体的各个部分.简单随机抽样具有下列优点:
数字 0 1 2 3 4 5 6 7 8 9 合计
人的编号 1 50 29 20 50 55 20 30 12 25 9 300 2 1 48 19 39 40 18 26 39 42 28 300 3 38 30 28 34 28 31 26 32 30 23 300 4 29 57 31 34 29 15 27 35 23 20 300 5 34 33 20 24 15 30 31 42 44 27 300 6 59 27 22 24 27 25 15 35 37 29 300
V (θ1 ) Deff = V (θ )
0
这个设计效果Deff 取反指标的形式.若Deff 值大 于等于1,即V (θ1 ) ≥V(θ0 ),则抽样估计效果较差; 反之,Deff 小于l,即V(θ1) <V(θ0),则抽样估计效果 较好.
ห้องสมุดไป่ตู้
例如,用分层抽样从某企业抽100个职工户,调查每 户平均收入,得到抽样方差 V1 =25,以相同的单位数 用简单随机抽样形式,得到抽样方差V 0=49,则抽样 设计效果为: Deff =25÷49=0.51 这表明在同样抽取100户条件下,用分层抽样优于简 Deff 单随机抽样.并且,可以利用抽样设计效果 计算 有效单位数 n′: n n′ = Deff
首先,在理论上最符合随机原则.对此可有二 种理解:一种是总体中各个单位被抽中的机会 相等.设总体有N个单位,各单位被抽中的概 1 率均为 N.另一种是总体中各个样本被抽中的 概率相等.我们知道,一个总体N中可以抽取 许多个容量为n 的样本,通常情况下按组合形 n C N个样本,那么,在一次抽样中,某个样 式有 1 本被抽中的概率为C ,这个概率对每个可能的 样本都相等.简单随机抽样遵循这种等可能性 原则,为进行抽样估计,计算抽样误差,提供 了重要前提条件.
所以,是Y 的无偏估计量.的均方误差(MSE)为 Y Y
即总体方差.又因为 Y是Y 的无偏估计量,因此,估计量的 方差等于均方误差,即
2 ) = σ 2 = σ ( 4 1) V (Y 1 4 1
若用不放回简单随机抽样法从上例的总体中抽取2个单元 组成样本,则可以得到 U 1U 2 ,U 1U 3 ,U 1U 4 ,U 2U 3 ,U 2U 4 ,U 3U 4 等六个可能样本,每个样本被抽中的概率均为六分之一, 当抽到不同的样本时,会有不同的估计结果,如表所示:
1,随机数表及其使用方法 随机数表是由0到9的10个阿拉伯数字进行随机排列 组成的表. 所谓随机排列,即每个数字都是按等概和重复独立 抽取的方式排定的. 随机数表的用途很多,不仅可以组织等概样本,也 可组织不等概样本. 简单随机抽样属等概率抽样,在使用随机数表时, 要注意以下几点: ①每次使用时,确定使用哪页及哪行哪列的数字为 起点,必须是随机的. ②设总体容量为N,若N的位数为r,则一定要从r位 数中抽取.遇到1至N的数可直接使用;遇到其它的 数不能直接使用.
③当r≥2时,可从含有起点数字左边的r位数开始,也可从右边的r 位数开始.可从起点开始向下抽取,也可向右抽取.但一经确定使 用哪一种方式,就必须用一种方式抽取全部单元号,中途不能变更. ④在重复抽样时,遇到重复的数字应重复使用;在不重复抽样时, 遇到重复的数字应舍去不用. 随机数表法一般分下述几步: 第一步:确定起点页码; 第二步:确定起点的行数与列数; 第三步:确定所抽样本单元的号码. 快速抽取的常用方法有: 余数法.如果N是个r位数,由1到 随机取一个数R,而 是N的最大 N′ N r位整倍数,则编号等于R除N所得余数的单元便被选中. ′ 商数法; 修正余数法; 修正商数法; 独立选择数位法.
2∑
3
i =1
∑YY
i ji
4
j
= 16 Y
2
∑Y
i =1
4
2 i
则
1 4 2 1 2 V ( y ) = ∑ Yi Y 3 12 i =1 1 1 4 2 σ2 42 2 2 = ( ∑ Yi Y ) = σ 3 = ( ) 3 4 i =1 2 4 1
将上述结论加以推广,则可得出一般性的结论,即从总体的N个单元中 不放回抽取n个单元时的估计量及其方差的构造形式.
2,随机数骰子及其使用方法 随机数骰子是由均匀材料制成的正二十面体(通常的骰子 是正六面体,即正方体),面上刻有0-9的数字各2个.
两个有名的试验
试验一:随意数试验. 让六个人写下100个自己随意想到的三位数,将这些数内 的0,1,…,9数字列成次数分布表. 可见,六个人都对数字存在偏好,如第一个人更加偏好 数字4,3,0;第二个人则偏好数字1,8,4;等等.这 种由于数字偏好所引起的偏估类型可称之为数字偏误.
-
样本编号 1 2 3 4
样 本 U1 U2 U3 U4
样本观测值 Y1 Y2 Y3 Y4
Y 的估计值
Y1 Y2 Y3 Y4
YY
Y1- Y Y2- Y Y3- Y Y4- Y
由上述分析可知
1 E (Y ) = ∑ Yi = Y 4
1 MSE (Y ) = ∑ (Yi Y ) 2 = σ 2 4
Y3 + Y4 2
可见,样本均值 y 是 Y 的一个无偏估计量,因为
1 Yi + Y j 1 3 4 E ( y ) = ∑∑ ( ) = ∑∑ (Yi + Y j ) 2 12 i =1 j i i =1 j i 6
3 4
而每个单元均可能在三个样本内出现,故
1 4 E ( y ) = ∑ 3Yi = Y 12 i =1
n N
其次,它是设计其他更复杂抽样形式的基础. 例如,设计分层抽样,将总体划分为若干层, 然后对各个层实施简单随机抽样.对一个非常 大的总体,需要分若干个阶段进行抽样.例如, 进行全国性抽样调查,第一阶段可以由全国抽 取若干个省份,第二阶段再由抽中的省份抽取 若干个县(市);第三阶段再由抽中的县(市)抽 取若干个乡(街道);第四阶段再由抽中的乡 (街道)抽取若干个村(居委会)等等.在这种多 阶段抽样中,每个阶段中抽取样本单位均可采 用简单随机抽样方法.
颜色 蓝 绿 红 白 黄 合计
人的编号 1 14 28 15 25 18 2 26 21 12 23 18 3 20 15 20 20 25 4 12 21 22 19 26
期望 数字 20 20 20 20 20 100
100 100 100 100
可见四个人都对颜色存在偏好,如第一个人偏爱绿色, 第二个人偏爱蓝色等.这种由于对颜色偏好所引起的偏估 类型,可称之为颜色偏误. 结论:随意抽样≠随机抽样
三,简单随机抽样的方法评估
1.简单随机抽样对总体不加任何限制,等概率地从总 体中直接抽取样本,是最简单,最单纯的抽样技术, 它具有计算简便的优点,是研究其它复杂抽样技术的 基础,也是比较各种抽样技术之间估计效率的标准, 同时,从理论上讲简单随机抽样在各种抽样技术中是 贯彻随机原则最好的一种,并且数学性质很简单,是 等概率抽样的特殊类型. 2.因为是等概率抽取样本,所以要求总体在所研究的 主要标志上同质性或齐性(共性)较好,也即总体要比 较均匀;要求样本容量要比较大,以保证样本对总体 具有充分的代表性.但是,在社会经济现象中,这种 均匀总体是很少见的.因此,实际工作中很少单纯使 用简单随机抽样方法.