抽样技术(金勇进)PPT.pptx
合集下载
抽样技术第七章整群抽样ppt课件
11
三、群内相关系数与设计效应
群内相关系数
c
E(Yij Y E(Yij
)(Yik Y Y )2
)
上式中的分子为
NM
(Yij Y )(Yik Y )
i1 jk
NM (M 1) 2
12
上式中的分母为
NM
i1
(Yij Y )2
j 1
NM
1S2
1N
1N
Y
M0
i1
Yij
j 1
M0
Yi
i1
M0
M iYi
i1
21
二、按简单随机抽样抽群
1.简单估计 2.比估计 3.总体比例的估计
22
1.简单估计
在大多数情形,群大小Mi是不相等的。此时,若Mi 相差不多,则仍可按§7.2中的方法处理,用平均群
大 则小这种M方法N1精iN1度M较i 差代。替M。反之,若Mi相差较多,
n
1 n
n 1 i1
yi y 2
1 f nM
sb2
其中f=n/N为抽样比。可见,sb2 是Sb2的无偏估计。
8
当n足够大时,总体均值Y 的置信度为1−α的置信区 间为:
y u 2s y
例7.1 在一次某城市居民小区居民食品消费量调查 中,以每个楼层(相当于居民小组)为群进行整群抽 样。每个楼层都有M=8个住户。用简单随机抽样在 全部N=510个楼层中抽取n=12个楼层。全部96个 样本户人均月食品消费额yij及按楼层的平均数yi 与 标准差si ,如下表所示。试估计该居民小区人均食 品消费额的户平均值 ,并给出其0.95的置信区间。
人大金勇进抽样调查PPT课件
总体总值、总体均值、总体比例三者是统一 统计量和估计方法
统计量是根据样本的n个单元的变量值计算出的 一个量,也叫估计量,用于对总体参数的估计。
估计量是随机变量,比如样本均值 估计方法:最常见的估计方法是简单线性估计,
除此之外,还可以借助于辅助变量。
1.2 基本概念
目标总体与抽样总体 抽样框与抽样单元 总体参数与统计量 估计量方差、偏差、均方误差 抽样误差与非抽样误差 精度与费用
目标总体与抽样总体
总体
目标总体也可简称为总体,是指所要研究对象 的全体,或者说是希望从中获取信息的总体, 它是由研究对象中所有性质相同的个体所组成
(2)抽样框中包含的抽样单元务必要“不重不漏”,否则将 出现抽样框误差。
抽样单元分级: 初级单元——>次级单元——>三级单元——>四级单
元……——>基本抽样单元。
总体参数和(样本)统计量
总体参数:总体是调查的客体,而总体参数 是总体某个特征或属性的数量表现。
常见的总体参数有4种:(1)总体总值; (2)总体均值;(3)总体比例;(4)总 体比率。
SUCCESS
THANK YOU
2019/8/1
几种基本的抽样方式
概率抽样调查 查
非概率抽样调
•简单随机抽样 •分层抽样 •系统抽样 •整群抽样 •多阶段抽样
• 判断抽样(包括典型调查和重点调查) • 便利抽样 • 自愿样本 • 滚雪球抽样 • 配额抽样等
简单随机抽样
简单随机抽样(simple random sampling)又 称纯随机抽样,考虑一个包含N个单位的母体, 从中抽取n个单位作为样本。如果抽样是不放 回的,即同一个单位不能在样本中重复出现, 那么总共有C(N,n) 种不同的取法,也就是说 共有C(N,n)个可能的不同样本。如果每个样 本被抽中的概率都相等,则称这种抽样方法 为简单随机抽样,所得到的样本叫做简单随 机样本(SRS)。
统计量是根据样本的n个单元的变量值计算出的 一个量,也叫估计量,用于对总体参数的估计。
估计量是随机变量,比如样本均值 估计方法:最常见的估计方法是简单线性估计,
除此之外,还可以借助于辅助变量。
1.2 基本概念
目标总体与抽样总体 抽样框与抽样单元 总体参数与统计量 估计量方差、偏差、均方误差 抽样误差与非抽样误差 精度与费用
目标总体与抽样总体
总体
目标总体也可简称为总体,是指所要研究对象 的全体,或者说是希望从中获取信息的总体, 它是由研究对象中所有性质相同的个体所组成
(2)抽样框中包含的抽样单元务必要“不重不漏”,否则将 出现抽样框误差。
抽样单元分级: 初级单元——>次级单元——>三级单元——>四级单
元……——>基本抽样单元。
总体参数和(样本)统计量
总体参数:总体是调查的客体,而总体参数 是总体某个特征或属性的数量表现。
常见的总体参数有4种:(1)总体总值; (2)总体均值;(3)总体比例;(4)总 体比率。
SUCCESS
THANK YOU
2019/8/1
几种基本的抽样方式
概率抽样调查 查
非概率抽样调
•简单随机抽样 •分层抽样 •系统抽样 •整群抽样 •多阶段抽样
• 判断抽样(包括典型调查和重点调查) • 便利抽样 • 自愿样本 • 滚雪球抽样 • 配额抽样等
简单随机抽样
简单随机抽样(simple random sampling)又 称纯随机抽样,考虑一个包含N个单位的母体, 从中抽取n个单位作为样本。如果抽样是不放 回的,即同一个单位不能在样本中重复出现, 那么总共有C(N,n) 种不同的取法,也就是说 共有C(N,n)个可能的不同样本。如果每个样 本被抽中的概率都相等,则称这种抽样方法 为简单随机抽样,所得到的样本叫做简单随 机样本(SRS)。
抽样技术金勇进PPT
样本量小时,回归估计偏差大于比率估计
三种估计量之间的关系
对于简单随机抽样,简单估计、差值估计是无偏的,比率估计、回归估计是渐近无偏的。小样本条件下回归估计偏差大于比率估计和简单估计。比估计在相关系数大于CX/2CY时优于简单估计。当样本量较小时,不能忽略比率估计及回归估计的偏倚。当辅助变量为调查指标的最近的普查值,可以考虑使用差值估计,尽管差值估计的方差可能比回归估计要大,但由于它是无偏估计,因此,总的均方误差可能比回归估计的小。
该县船舶在调查月完成货运量的比率估计为 用简单估计对货运量进行估计
实际中对于样本量较小的情形,使用比率估计量时不能忽视其偏倚。
四、分层随机抽样下的比率估计
如果各层的样本量不小的话,则可以采用各层分别进行比率估计,将各层加权汇总得到总体指标的估计,这种方式称为分别比率估计量。separate ratio estimator
二、比率估计的性质
偏倚量会小,如果: 样本量n 很大抽样比n/N很大 很大 S x很小 相关系数R接近于1
ห้องสมุดไป่ตู้
比率估计的近似方差
三、比率估计的效率
1.与简单估计的比较简单估计量无偏,而比率估计量渐近无偏。因此这里只比较当n比较大的情形。比率估计量优于简单估计量的条件是:
正高度相关
谢谢观看/欢迎下载
BY FAITH I MEAN A VISION OF GOOD ONE CHERISHES AND THE ENTHUSIASM THAT PUSHES ONE TO SEEK ITS FULFILLMENT REGARDLESS OF OBSTACLES. BY FAITH I BY FAITH
=415331
=1604
抽样调查理论与方法 金勇进(第二版)-第2章-简单随机抽样
N
X
2
n
N
1
i 1
(Y i R X i )
2
定理 的方差为:
Y 2.7:对于简单随机抽样,n较大时, R N y R
N 1 2 1 f 2 V (Y R ) N (Yi R X i ) n N 1 i 1
推论 2.12:对于简单随机抽样,n较大时, Y y 的方差为:
n N
n N
【例2.1】
设总体有5个单元(1、2、3、4、5), 按不放回简单随机抽样的方式抽取2个单 元,则所有可能的样本为个:
1,2
1,3 1,4 1,5
2,3
2,4 2,5
3,4
3,5
4,5
【例2.2】
设总体有5个单元(1、2、3、4、5),按放回 简单随机抽样的方式抽取2个单元,则所有可 能的样本为25个(考虑样本单元的顺序):
i
Y X
Y X
r
n
yi xi
i 1
y x
i 1
i 1
简单估计量
1 Y y n
n
yi
y1 y 2 y n n
i 1
N Y Ny n
n
yi
i 1
a 1 P p n n
n
yi y Y
i 1
ˆ R
【例2.5】
根据例【2.4】的数据和结果,比较两种思路下对应的 方差估计结果。
2.4 回归估计量及其性质
属于简单估计量,不属于比率估计量。
引理 的期望为:
2.3:对于简单随机抽样,n较大时, R r
X
2
n
N
1
i 1
(Y i R X i )
2
定理 的方差为:
Y 2.7:对于简单随机抽样,n较大时, R N y R
N 1 2 1 f 2 V (Y R ) N (Yi R X i ) n N 1 i 1
推论 2.12:对于简单随机抽样,n较大时, Y y 的方差为:
n N
n N
【例2.1】
设总体有5个单元(1、2、3、4、5), 按不放回简单随机抽样的方式抽取2个单 元,则所有可能的样本为个:
1,2
1,3 1,4 1,5
2,3
2,4 2,5
3,4
3,5
4,5
【例2.2】
设总体有5个单元(1、2、3、4、5),按放回 简单随机抽样的方式抽取2个单元,则所有可 能的样本为25个(考虑样本单元的顺序):
i
Y X
Y X
r
n
yi xi
i 1
y x
i 1
i 1
简单估计量
1 Y y n
n
yi
y1 y 2 y n n
i 1
N Y Ny n
n
yi
i 1
a 1 P p n n
n
yi y Y
i 1
ˆ R
【例2.5】
根据例【2.4】的数据和结果,比较两种思路下对应的 方差估计结果。
2.4 回归估计量及其性质
属于简单估计量,不属于比率估计量。
引理 的期望为:
2.3:对于简单随机抽样,n较大时, R r
抽样调查理论与方法 金勇进(第二版)第3章-分层随机抽样
分别比估计量要求每一层的样本量都比较大,如果达不 到这个要求,则它的偏差可能比较大,这时要使用联合 比估计量。
3.3.1 分别比估计
定义 3.4 总体均值 Y 和总体总量 Y 的分别比估计为:
y RS Wh y Rh yh Wh Xh xh
ˆ Ny yh X Y ˆ YRS RS h Rh xh
E (YRS ) Y
MSE (YRS ) V (YRS )
2 N h (1 f h ) 2 2 2 (S yh Rh S xh 2Rh S yxh ) nh h 1 L
3.3.2 联合比估计
定义 3.5 总体均值 Y 和总体总量 Y 的联合比估计为:
y RC y st ˆ X RC X x st
居民 户总 数
层
样本户拥有家庭电脑情况 1 0 0 1 1 2 0 1 1 0 3 0 0 0 0 4 1 0 0 0 5 0 0 0 0 6 0 0 0 0 7 0 0 1 0 8 1 0 0 0 9 0 1 1 0 10 0 0 0 0
1 2 3 4
200 400 750 1500
2013-8-10
L
N h Yh
h 1
L
分层随机样本,总体均值 Y 的简单估计
1 y st Wh y h N h 1
L
N
h 1
L
h
yh
7
2013-8-10
Y 定理 3.1:对于分层随机抽样,st 是 Y 的无偏估计。
定理 3.2:对于分层随机抽样,有
V Yst Wh2V Yh
1 yh nh
y
i 1
nh
抽样技术PPT
总体回归 系数
大样本条 件下
残差方 差Se2
当 较大时, 适用场合 ?
层内残差 方差Seh2
无偏
渐近无偏
其中
如果是按比例分配,则可简化为联 合最小二乘估计?
• 【例】某市对中央直属单位和市属单位专业技 术人员总数进行了分层随机调查,已有98年各 层人员总数,135个中央直属单位有75650专业 技术人员,1228个市属单位有315612专业技术 人员。分别在两层中调查了15、20家单位,调 查数据如下,试估计99年全市专业技术人员总 数。
辅助指标x,其总体均值(总量)已知
【例4.1】对以下假设总体(N=6),用简单随机抽样抽 取的样本,比较简单随机抽样比估计及简单估计的 18 29 46
平均值 4.5 18
样本 1 1,2 2 1,3 3 1,4 4 1,5 5 1,6 6 2,3 7 2,4 8 2,5 9 2,6 10 3,4 11 3,5 12 3,6 13 4,5 14 4,6 15 5,6
由此我们可以使用不同于总数N的方法而是采 用辅助变量来进行测量。
• 要估计渔网中长度长于12cm的鱼的总数,抽取 一个鱼的随机样本,估计长度长于12cm的鱼所 占的比例,用鱼的总数N乘以这个比例即可得 到,但如果N未知不能使用。
• 能称量渔网中鱼的总重量。鱼的长度与其重量 相关。
• 调整来自样本的估计量以便它们反映人 口统计学的总量。
• 简单估计量的方差远远大于比估计量的方差,比估计的偏差不大 ,其均方误差也比简单估计的小得多。
• 因此对这个总体,比估计比简单估计的效率高。
二、比率估计的性质
偏倚量会小,如果: • 样本量n 很大 •抽样比n/N很大 • 很大 • S x很小 • 相关系数R接近于1
抽样技术(第5版)课件PPT课件第2章
n i 1
n i j
1 n N
1 n(n 1)
2 (Yi Y ) 2 2
(Yi Y )(Y j Y )
n N i 1
n N ( N 1) i j
n 1 N
n 1 N
1 N
n 1
2
2
(Yi Y )
(Yi Y ) 2
1.5
4.5
10
平均
5
6
5.5
2.5
0.5
3
0
6.5
方差1.95
y -Y
2
证明 性质1
对于固定的有限总体,估计量的期望是对所有可能样本求平均得
到的,因此
y y1 y 2 y n
E y n
CN
nCNn
总体中每个特定的单元
在不同的样本中出现的次数。C n 1
小写符号表示样本的标志值
符号
总
1
Y
N
体
Y1 Y2 YN
Y
i
N
i 1
N
N
Y Yi Y1 Y2 YN
i 1
A 1
P
N N
N
Y Yi 0或1
i 1
i
1 N
N
2
S
Y
Y
2
i
N 1 i 1
N 1
2
样
y y2 yn
i 1
n
i 1
y
x
n i j
1 n N
1 n(n 1)
2 (Yi Y ) 2 2
(Yi Y )(Y j Y )
n N i 1
n N ( N 1) i j
n 1 N
n 1 N
1 N
n 1
2
2
(Yi Y )
(Yi Y ) 2
1.5
4.5
10
平均
5
6
5.5
2.5
0.5
3
0
6.5
方差1.95
y -Y
2
证明 性质1
对于固定的有限总体,估计量的期望是对所有可能样本求平均得
到的,因此
y y1 y 2 y n
E y n
CN
nCNn
总体中每个特定的单元
在不同的样本中出现的次数。C n 1
小写符号表示样本的标志值
符号
总
1
Y
N
体
Y1 Y2 YN
Y
i
N
i 1
N
N
Y Yi Y1 Y2 YN
i 1
A 1
P
N N
N
Y Yi 0或1
i 1
i
1 N
N
2
S
Y
Y
2
i
N 1 i 1
N 1
2
样
y y2 yn
i 1
n
i 1
y
x
抽样技术(金勇进)PPT
(2)
因为 E(ylr ) = E(y) + β0E(X − x) =Y 而 ylr又 表 yi + β0 (X − xi ) 的样本均值 可 为 后者的总体均值为Y 故(2)式成立 2
为什么要使用比率估计/回归估计 为什么要使用比率估计 回归估计
• 利用总体的辅助信息提高估计的精度。
–辅助指标的选择 :辅助指标应该与调查指标有较好 的正的相关关系 。y 的抽样分布较 y 的抽样分布变 动性要小得多。 xu x –辅助指标的总体总量或总体均值已知。
• 比率估计、回归估计需要有足够的样本量才能 保证估计的有效。
分 抽 下 比 计 两 方 : 层 样 , 估 有 种 法 X 1.Separate R atio estim ator N 2 2 2 2 y1 y2 yL i y x r = ,2r2 = , i rL = ∑ 2 1 … ..L) x1 x2 … . ∑xL (h=1,2,… i=1
E ( y − RX )
β的 定 为 0 ,0 是 常 , : β 一数则 确 值 β
1 ()
yLr = y +β (X −x) 0
N 1− f 1 V ( y Lr ) = [( Y i − Y ) − β 0 ( X i − X )] 2 ∑ n N −1
1− f 2 = ( S y + β 02 S x2 − 2 β 0 S yx ) n
分 抽 下 比 计 两 方 : 层 样 , 估 有 种 法 1.Separate R atio estim ator
∑y , r = ∑y r = ∑x ∑x
1 1
2
2
,
1
2
r … .L …
∑y = ∑x
抽样调查理论与方法 金勇进(第二版)第5章-不等概抽样
ˆ Y HH
M n
0
2 0
n
yi mi
i 1
3676 10926 10926 1024 510 38 . 23 38 . 23 13 . 70 6 . 2 30
75757 087(百元)
ˆ v Y HH
M
n n 1
n
i 1
2
5.2.3 有放回不等概整群抽样
根据汉森-赫维茨(Hansen-hurwitz)估 计量,PPS整群抽样的总体总值估计量为:
1 Y n
n
yi Zi
1 n
N
M n
0
i 1
n
yi M
i
M0y
i 1
估计量的方差:
ˆ V (YHH )
Zi (
i 1
Yi Zi
n
Y )
对于放回不等概抽样,对总体总量的估计 是汉森-赫维茨(Hansen-hurwitz)估计:
ˆ Y HH 1 n
n
yi zi
M n
0
i 1
n
yi mi
i 1
总体总值的无偏估计量
PPS抽样:
1 YHH n
n
yi Zi
M n
0
i 1
n
yi M
i
i 1
ˆ V (YHH )
第5章 不等概抽样
例:欲调查某城市住院病人对于某项医疗服务的偏好。 目标总体:某一时段该城市所有医院的病人。 等概率两阶段抽样:第一阶段中拥有20个病床的医 院和拥有1000个病床的医院被抽中的概率是一样的 ;第二阶段若采用等概抽样,20个病床的医院抽取2 个,1000个病床的医院需要抽取100个。 抽样误差较大; 不同规模医院的病人样本调查难易度和单位成本 不同; 抽样前大医院样本数量未知,容易给调查的管理 造成困难;
抽样技术(第5版)课件PPT课件第9章
i 1
i
Y ) nN 具有无偏估计:
v( y )
n
(y
i 1
i
y ) 2 n(n 1)
n
y
i 1
i
n 是 Y 的无偏估计。其方差 V ( y )
2.放回的PPS抽样
假设按放回的 PPS 抽样方式抽取一个样本量为 n 的样本,第 j 个单元每次入样的概率
为 Z j ,则总体总和 Y 的估计及其方差为:
ത
就不独立了。令መ = 由于其为线性形式,故总体均值
ത
的刀切法估计量即
መ
为其本身:
1
መ
ҧ = መ = ത
=1
መҧ
的方差估计为:
1
መҧ =
=1
=1
1
−1
መ
2
(መ − )ҧ =
[ത − ]
ത2
( − 1)
4.用于比率估计
假定要估计比值 = /,其中Y与X是总体总和。通常的估计量 =
1
ҧ 2
( − )
( − 1)
=1
随机组的划分和组数的确定
独立随机组不存在随机组的划分问题
非独立随机组情形,需要考虑如何进行随机组
的划分
随机组的划分的一个基本原则:
每个随机组本质上具有与原始样本相同的抽
样设计
在各种抽样方法下,如何进行随机组的划分?
1.
2.
3.
不放回简单随机抽样或抽样:将原始样本进行随
将1 放回总体,按相同的方式抽取样本2
重复上述过程,直至获得k个样本
令为目标参数, ( = 1, … , )表示第j个
i
Y ) nN 具有无偏估计:
v( y )
n
(y
i 1
i
y ) 2 n(n 1)
n
y
i 1
i
n 是 Y 的无偏估计。其方差 V ( y )
2.放回的PPS抽样
假设按放回的 PPS 抽样方式抽取一个样本量为 n 的样本,第 j 个单元每次入样的概率
为 Z j ,则总体总和 Y 的估计及其方差为:
ത
就不独立了。令መ = 由于其为线性形式,故总体均值
ത
的刀切法估计量即
መ
为其本身:
1
መ
ҧ = መ = ത
=1
መҧ
的方差估计为:
1
መҧ =
=1
=1
1
−1
መ
2
(መ − )ҧ =
[ത − ]
ത2
( − 1)
4.用于比率估计
假定要估计比值 = /,其中Y与X是总体总和。通常的估计量 =
1
ҧ 2
( − )
( − 1)
=1
随机组的划分和组数的确定
独立随机组不存在随机组的划分问题
非独立随机组情形,需要考虑如何进行随机组
的划分
随机组的划分的一个基本原则:
每个随机组本质上具有与原始样本相同的抽
样设计
在各种抽样方法下,如何进行随机组的划分?
1.
2.
3.
不放回简单随机抽样或抽样:将原始样本进行随
将1 放回总体,按相同的方式抽取样本2
重复上述过程,直至获得k个样本
令为目标参数, ( = 1, … , )表示第j个
抽样调查理论与方法 金勇进(第二版)第4章等概率整群抽样和多阶段抽样
S
2
故 又可写为:
2
N
(Y
M
ij
Y )( Y ik Y )
2
( NM 1 )( M 1 ) S
用简单随机抽样方法抽取n个群,每个群内的M个 单元全部进入样本,则等群抽样均值估计量 y 的方 差可用群内相关系数近似表示
1 M
2
V (y)
V (y)
1 f nM
1567.9 39.6( 万 公 斤 )
评价:虽是无偏估计量,但方差估计与 y i 之 间的差异有关,适合于 y i 之间差异不大的整 群抽样。
(2 ) 等概抽样,比率估计
Yˆ M
t
n i 1 n i 1
yi
i
2
726
n
2 5 7 .1 209
8 9 3 .0 8
M
v ( Yˆ ) s ( Yˆ )
v( y ) 1 f nM
Yˆ NM y
2 2 V ( Yˆ ) V ( NM y ) N M V ( y )
sb
2
总体总值 的估计量 及其方差
ˆ ) N 2 M 2v( y ) v (Y
【例4.1】
在一次对某中学在校零花钱的调查中, 以宿舍作为群进行整群抽样。每个宿舍 都有M=6名学生。用简单随机抽样在全 部N=315间宿舍中抽取n=8个宿舍。全 部48个学生上周每人的零花钱 y ij 及相关 计算数据如表4-2所示。试估计该学校学 生平均每周的零花钱 Y ,并给出其95% 的置信区间。
整群抽样的效率分析
群内相关系数 表达式为:
E ( Y ij Y )( Y ik Y ) E ( Y ij Y )
抽样技术PPT教学课件
(2)不重复抽样时 :
样本个数=4×3=12
• 若改变样本单位数,取n=3 ,
样本个数=4×3×2=24
18
必要样本容量的影响因素
STAT
允许误差范围的大小; 抽样调查的组织方式和方法; 人力、财力和物力的允许条件。
19
§4.2 随机抽样技术 STAT 一、简单随机抽样 二、分层抽样 三、系统抽样 四、整群抽样
例:总体群数R=16
A D
E
B F G
CM N
J H
L K
P O I
LP HD
样本群数r=4
样本容量
n nd np nl nh
简单、方便,易于组织,能节省人力、物力、财力 和时间,但其限制了样本在总体中分配的均匀性。 40
特点
STAT
(1)总体和样本都是由“群”组成; (2)引起的抽样误差的方差是群间方差, 群内方差不影响抽样误差; (3)整群抽样均为不重复抽样,可提高样 本的代表性。
34
解:根据最低成本抽样法,则
n大
(50
5020000
20000) / 1508000
600 3005000
30
600
500
400
7家
n中
(150 8000) / 5020000 1508000
500 3005000
30
600
500
400
9家
ni
Ni i / (Ni i /
ci n ci )
式 中: ni为第i层抽出的样本数
Ni为第i层的总单位数
i 为第i层Biblioteka 标准差ci 为第i层每单位的调查费用
抽样技术(第5版)课件PPT课件第7章
n N
n n
若有限总体修正系数 可忽略不计
1 2 1 1
V ( yRD ) S y ( )( R 2 S x2 2 RS yx )
n
n n
1 2 1 1 ˆ2 2
ˆ )
v( yRD ) s y ( )( R sx 2 Rs
yx
n
n n
1 2 ˆ2 2
1 ˆ
2 2
1000 8000
0.32 (7 6.42) 2 0.1 (15 6.42) 2
0.04 (40 6.42) 2 ]
0.0552
v( ystD ) 0.0368 0.0552 0.092
s(Y ) Ns( ystD ) N v( ystD ) 2426.52
, =
1 + 2
7.2 捕获再捕获抽样
一、捕获再捕获估计
捕获再捕获抽样的基本思想是从总体中抽取一个样
本,将样本的每个个体标识(作标记或加标签) 后释放
回总体中,经过一段时间的充分混合后,再从总体中抽
取一个样本,此时,该样本将包括已标识的和未标识的
个体,利用这两个样本的信息对总体数量做估计。
h 1 nh
其中
nh
1
2
sh2
(
y
y
)
hj
h
nh 1 j 1
为第二重样本第h层的方差。
当抽样比
nh 和 n 可以忽略不计时,上式简化为
N
n
wh2 sh2 1 L
( ystD )
wh ( yh ystD )2
nh
n h1
h 1
n n
若有限总体修正系数 可忽略不计
1 2 1 1
V ( yRD ) S y ( )( R 2 S x2 2 RS yx )
n
n n
1 2 1 1 ˆ2 2
ˆ )
v( yRD ) s y ( )( R sx 2 Rs
yx
n
n n
1 2 ˆ2 2
1 ˆ
2 2
1000 8000
0.32 (7 6.42) 2 0.1 (15 6.42) 2
0.04 (40 6.42) 2 ]
0.0552
v( ystD ) 0.0368 0.0552 0.092
s(Y ) Ns( ystD ) N v( ystD ) 2426.52
, =
1 + 2
7.2 捕获再捕获抽样
一、捕获再捕获估计
捕获再捕获抽样的基本思想是从总体中抽取一个样
本,将样本的每个个体标识(作标记或加标签) 后释放
回总体中,经过一段时间的充分混合后,再从总体中抽
取一个样本,此时,该样本将包括已标识的和未标识的
个体,利用这两个样本的信息对总体数量做估计。
h 1 nh
其中
nh
1
2
sh2
(
y
y
)
hj
h
nh 1 j 1
为第二重样本第h层的方差。
当抽样比
nh 和 n 可以忽略不计时,上式简化为
N
n
wh2 sh2 1 L
( ystD )
wh ( yh ystD )2
nh
n h1
h 1
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 简单估计量的方差远远大于比估计量的方差,比估计的偏差不大, 其均方误差也比简单估计的小得多。
• 因此对这个总体,比估计比简单估计的效率高。
xu
二、比率估计的性质
E(r
R)
1 f nX 2
(SxS y
RS
2 x
)
偏倚量会小,如果:
• 样本量n 很大
•抽x样u 比n/N很大
• 很大 • S x很小 • 相关系数R接近于1
比估计 18 18 17.1
16.875 21.15 15.75 15.75
16 20 16.3 16.36 19.73 16.27 19.2 18.75
y yR x X
yi X xi
1 15
E( yR ) 15 i1 yRi 17.686
E( y)
1 15
15 i 1
yi
18
V ( yR )
• 调查中都有辅助信息,抽样框也通常有每个单元额外 的信息,这些信息能被用来提高我们的估计精度。
为什么要使用比率估计/回归估计
• 利用总体的辅助信息提高估计的精度。
–辅助指标的选择 :y辅助指标应该与调y 查指标有较好
的正的相关关系 。x 的抽样分布较 xu 的抽样分布变
动性要小得多。
–辅助指标的总体总量或总体均值已知。
• 比率估计、回归估计需要有足够的样本量才能
保证估计的有效。
–有偏估计:当样本量足够大时,估计的偏倚趋于0。
• 简单地想要估计一个比率 :假定总体由面
积不同农业用地构成, yi =i地谷物的产 量, xi :i地的面积,B=每亩谷物的平均 产量
^
ty Ny
• 想要估计一个总体总数,但总体大小N是未 知的。但是我们知道,于是可以通过来估计N,
• 在一所具有4000名学生的大学提取一个 400个学生的简单随机样本,此样本可能 包含240个女性,160个男性,且其中被 抽中的84名女性和40名男性计划以教学 为毕业后的职业。
4000 124 1240 400
84 2700 40 1300 1270
240
160
• 比率估计量被用来对无回答进行调整
由此我们可以使用不同于总数N的方法而是采 用辅助变量来进行测量。
• 要估计渔网中长度长于12cm的鱼的总数,抽取 一个鱼的随机样本,估计长度长于12cm的鱼所 占的比例,用鱼的总数N乘以这个比例即可得 到,但如果N未知不能使用。
• 能称量渔网中鱼的总重量。鱼的长度与其重量
相关。
t
^
yr
y
tx
x
• 调整来自样本的估计量以便它们反映人 口统计学的总量。
条件下,
y yR x X
y x
X
YˆR
y x
X
y x
X
NyR
Rˆ y x
辅助指标x,V其(Rˆ总) 体1nX均2f值((Y总Ni 量R1X)i )已2 知
【例4.1】对以下假设总体(N=6),用简单随机抽样抽 取的样本,比较简单随机抽样比估计及简单估计的性质。
1234 5 6
X i 0 1 3 5 8 10
比率估计的近似方差
V ( yR ) V ( XRˆ) X 2V (Rˆ)
V (YˆR ) N 2 X 2V (Rˆ)
当 R>0.5 时,比估计比 srs 有更高的精度。
1 2 V (Rˆ ) E(Rˆ R) X E( y RX ) 分层抽样下,比估计有两种方法: 2
2 v1
(
Rˆ )
Chapter 4 Ratio and Regression Estimator
• 1802年,拉普拉斯想要估计法国的人口数目。他获得 了一个遍布全国范围的30commune的样本,截至1802 年9月23日总共有2,037615居民。在包括1802年9月23 日以前的三年中,215599个新生儿在30个commune。
1 f n
S
2 y
R
2
SLeabharlann 2 x2RSy Sx
比率估计量优于简单估计量的条件是:
R2Sx2 2RSy Sx 0
1 Sx X Cx
2 S y Y 2Cy
正高度 相关
n i 1
(
yi
Rˆxi )2
v2
(
Rˆ
)
1 nx
f
2
( s 2y
2Rˆsxy
Rˆ 2sx2 )
三、比率估计的效率
• 1.与简单估计的比较 简单估计量无偏,而比率估计量渐近无偏。
因此这里只比较当n比较大的情形。
Vy 1 f
n
S
2 y
V yR
1 f n
S
2 y
R
2
S
2 x
2RS yx
1 nX
f
2
n
1 1
n i 1
(
yi
Rˆxi )2
Vr11R.Separ1anxytX11e ,R2fra2tNio1es1timxyiN22a1t,oY…ri … .RrXL i
2xy1LLnX(h=2f 1,2S,y…2 ..LR)
2
S
2 x
2RS
yx
v1(
Rˆ
)
1 nX
f
2
1 n 1
• 设抽取一个行业的样本:令yi为i行业花费在健
y
康保险上的金额,xi为i行业的雇员数。假定对
x
总体中的每个行业xi均已知。我们希望一个行
业花费在健康保险上的金额与雇员数相关。某
些行业在调查中可能涉及不到。估计保险费用 的总花销时调整无回答的方法之一是用总体数
X 乘以比率 y
x
一、
在 srs
Ratio Estimator
1 15
15 i 1
yRi E( yR ) 2 2.82
V ( y) 1 15 15 i1
yi E( y) 2 97.87
B( yR ) E( yR ) Y 0.31356
MSE( yR ) V ( yR ) B2 ( yR ) 2.92
• 简单估计是无偏的,而比估计是有偏的。
• 拉普拉斯认为30个commune的每年注册的新生儿数为 215599/3=71866.33.把2037615按照71866.33来分,拉普 拉斯估计每年每28.35人里有一个注册新生儿。
• 具有众多人口的乡镇也就可能有同样众多的注册新生 儿,通过用28.35乘以全法国年度新生儿总数来估计得 出法国人口总数。
Yi 1 3 11 18 29 46
平均值 4.5 18
yR
C
2 6
15
样本
1 1,2
2 1,3
3 1,4
4 1,5
5 1,6
6 2,3
7 2,4
8 2,5
9 2,6
10 3,4
11 3,5
12 3,6
13 4,5
14 4,6
15 5,6
简单估计 2 6 9.5 15
23.5 7
10.5 16 24.5 14.5 20 28.5 23.5 32 37.5
• 因此对这个总体,比估计比简单估计的效率高。
xu
二、比率估计的性质
E(r
R)
1 f nX 2
(SxS y
RS
2 x
)
偏倚量会小,如果:
• 样本量n 很大
•抽x样u 比n/N很大
• 很大 • S x很小 • 相关系数R接近于1
比估计 18 18 17.1
16.875 21.15 15.75 15.75
16 20 16.3 16.36 19.73 16.27 19.2 18.75
y yR x X
yi X xi
1 15
E( yR ) 15 i1 yRi 17.686
E( y)
1 15
15 i 1
yi
18
V ( yR )
• 调查中都有辅助信息,抽样框也通常有每个单元额外 的信息,这些信息能被用来提高我们的估计精度。
为什么要使用比率估计/回归估计
• 利用总体的辅助信息提高估计的精度。
–辅助指标的选择 :y辅助指标应该与调y 查指标有较好
的正的相关关系 。x 的抽样分布较 xu 的抽样分布变
动性要小得多。
–辅助指标的总体总量或总体均值已知。
• 比率估计、回归估计需要有足够的样本量才能
保证估计的有效。
–有偏估计:当样本量足够大时,估计的偏倚趋于0。
• 简单地想要估计一个比率 :假定总体由面
积不同农业用地构成, yi =i地谷物的产 量, xi :i地的面积,B=每亩谷物的平均 产量
^
ty Ny
• 想要估计一个总体总数,但总体大小N是未 知的。但是我们知道,于是可以通过来估计N,
• 在一所具有4000名学生的大学提取一个 400个学生的简单随机样本,此样本可能 包含240个女性,160个男性,且其中被 抽中的84名女性和40名男性计划以教学 为毕业后的职业。
4000 124 1240 400
84 2700 40 1300 1270
240
160
• 比率估计量被用来对无回答进行调整
由此我们可以使用不同于总数N的方法而是采 用辅助变量来进行测量。
• 要估计渔网中长度长于12cm的鱼的总数,抽取 一个鱼的随机样本,估计长度长于12cm的鱼所 占的比例,用鱼的总数N乘以这个比例即可得 到,但如果N未知不能使用。
• 能称量渔网中鱼的总重量。鱼的长度与其重量
相关。
t
^
yr
y
tx
x
• 调整来自样本的估计量以便它们反映人 口统计学的总量。
条件下,
y yR x X
y x
X
YˆR
y x
X
y x
X
NyR
Rˆ y x
辅助指标x,V其(Rˆ总) 体1nX均2f值((Y总Ni 量R1X)i )已2 知
【例4.1】对以下假设总体(N=6),用简单随机抽样抽 取的样本,比较简单随机抽样比估计及简单估计的性质。
1234 5 6
X i 0 1 3 5 8 10
比率估计的近似方差
V ( yR ) V ( XRˆ) X 2V (Rˆ)
V (YˆR ) N 2 X 2V (Rˆ)
当 R>0.5 时,比估计比 srs 有更高的精度。
1 2 V (Rˆ ) E(Rˆ R) X E( y RX ) 分层抽样下,比估计有两种方法: 2
2 v1
(
Rˆ )
Chapter 4 Ratio and Regression Estimator
• 1802年,拉普拉斯想要估计法国的人口数目。他获得 了一个遍布全国范围的30commune的样本,截至1802 年9月23日总共有2,037615居民。在包括1802年9月23 日以前的三年中,215599个新生儿在30个commune。
1 f n
S
2 y
R
2
SLeabharlann 2 x2RSy Sx
比率估计量优于简单估计量的条件是:
R2Sx2 2RSy Sx 0
1 Sx X Cx
2 S y Y 2Cy
正高度 相关
n i 1
(
yi
Rˆxi )2
v2
(
Rˆ
)
1 nx
f
2
( s 2y
2Rˆsxy
Rˆ 2sx2 )
三、比率估计的效率
• 1.与简单估计的比较 简单估计量无偏,而比率估计量渐近无偏。
因此这里只比较当n比较大的情形。
Vy 1 f
n
S
2 y
V yR
1 f n
S
2 y
R
2
S
2 x
2RS yx
1 nX
f
2
n
1 1
n i 1
(
yi
Rˆxi )2
Vr11R.Separ1anxytX11e ,R2fra2tNio1es1timxyiN22a1t,oY…ri … .RrXL i
2xy1LLnX(h=2f 1,2S,y…2 ..LR)
2
S
2 x
2RS
yx
v1(
Rˆ
)
1 nX
f
2
1 n 1
• 设抽取一个行业的样本:令yi为i行业花费在健
y
康保险上的金额,xi为i行业的雇员数。假定对
x
总体中的每个行业xi均已知。我们希望一个行
业花费在健康保险上的金额与雇员数相关。某
些行业在调查中可能涉及不到。估计保险费用 的总花销时调整无回答的方法之一是用总体数
X 乘以比率 y
x
一、
在 srs
Ratio Estimator
1 15
15 i 1
yRi E( yR ) 2 2.82
V ( y) 1 15 15 i1
yi E( y) 2 97.87
B( yR ) E( yR ) Y 0.31356
MSE( yR ) V ( yR ) B2 ( yR ) 2.92
• 简单估计是无偏的,而比估计是有偏的。
• 拉普拉斯认为30个commune的每年注册的新生儿数为 215599/3=71866.33.把2037615按照71866.33来分,拉普 拉斯估计每年每28.35人里有一个注册新生儿。
• 具有众多人口的乡镇也就可能有同样众多的注册新生 儿,通过用28.35乘以全法国年度新生儿总数来估计得 出法国人口总数。
Yi 1 3 11 18 29 46
平均值 4.5 18
yR
C
2 6
15
样本
1 1,2
2 1,3
3 1,4
4 1,5
5 1,6
6 2,3
7 2,4
8 2,5
9 2,6
10 3,4
11 3,5
12 3,6
13 4,5
14 4,6
15 5,6
简单估计 2 6 9.5 15
23.5 7
10.5 16 24.5 14.5 20 28.5 23.5 32 37.5