抽样技术(金勇进)PPT

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(2)
因为 E(ylr ) = E(y) + β0E(X − x) =Y 而 ylr又 表 yi + β0 (X − xi ) 的样本均值 可 为 后者的总体均值为Y 故(2)式成立 2
为什么要使用比率估计/回归估计 为什么要使用比率估计 回归估计
• 利用总体的辅助信息提高估计的精度。
–辅助指标的选择 :辅助指标应该与调查指标有较好 的正的相关关系 。y 的抽样分布较 y 的抽样分布变 动性要小得多。 xu x –辅助指标的总体总量或总体均值已知。
• 比率估计、回归估计需要有足够的样本量才能 保证估计的有效。
分 抽 下 比 计 两 方 : 层 样 , 估 有 种 法 X 1.Separate R atio estim ator N 2 2 2 2 y1 y2 yL i y x r = ,2r2 = , i rL = ∑ 2 1 … ..L) x1 x2 … . ∑xL (h=1,2,… i=1
E ( y − RX )
β的 定 为 0 ,0 是 常 , : β 一数则 确 值 β
1 ()
yLr = y +β (X −x) 0
N 1− f 1 V ( y Lr ) = [( Y i − Y ) − β 0 ( X i − X )] 2 ∑ n N −1
1− f 2 = ( S y + β 02 S x2 − 2 β 0 S yx ) n
分 抽 下 比 计 两 方 : 层 样 , 估 有 种 法 1.Separate R atio estim ator
∑y , r = ∑y r = ∑x ∑x
1 1
2
2
,
1
2
r … .L …
∑y = ∑x
L
L
(h=1,2,… ..L)
y y S =∑ hy h =∑ h h X W R W R h x h
• 简单估计是无偏的,而比估计是有偏的。 • 简单估计量的方差远远大于比估计量的方差,比估计的偏差不大, 其均方误差也比简单估计的小得多。 • 因此对这个总体,比估计比简单估计的效率高。
x
u
二、比率估计的性质
E (r − R) ≈ 1− f ( ρS x S y − RS x2 ) nX 2
偏倚量会小,如果: • 样本量n 很大 •抽样比n/N很大 • xu 很大 • S x很小 • 相关系数R接近于1
i i
• 【例4.2】某县在对船舶调查月完成的货运量进行调查 例4.2 时,对运管部门登记的船舶台帐进行整理后获得注册 船舶2860艘,载重吨位154626吨,从2860艘船舶中抽 i 取了一个的简单随机样本,调查得到样本船舶调查月 完成的货运量及其载重吨位如下表(单位:吨),要 推算该县船舶调查月完成的货运量。
15
1 15 E ( y ) = ∑ yi = 18 15 i =1
1 15 2 V ( y ) = ∑ [ yi − E ( y )] = 97.87 15 i =1
B( y R ) = E ( y R ) − Y ≈ −0.31356
MSE ( y R ) = V ( y R ) + B 2 ( y R ) ≈ 2.92
–有偏估计:当样本量足够大时,估计的偏倚趋于0。
• 简单地想要估计一个比率 :假定总体由面 积不同农业用地构成, yi =i地谷物的产 量, xi :i地的面积,B=每亩谷物的平均 产量
^
ty = Ny
• 想要估计一个总体总数,但总体大小N是未 知的。但是我们知道,于是可以通过来估计N, 由此我们可以使用不同于总数N的方法而是采 用辅助变量来进行测量。 • 要估计渔网中长度长于12cm的鱼的总数,抽取 一个鱼的随机样本,估计长度长于12cm的鱼所 占的比例,用鱼的总数N乘以这个比例即可得 到,但如果N未知不能使用。 • 能称量渔网中鱼的总重量。鱼的长度与其重量 相关。 = yt t yr x
ˆ ≈ N 2 (1 − f ) s 2 + R 2 s 2 − 2 Rs = 2.10617 × 1011 v YR ( y ˆ x ˆ yx
n
ˆ ˆ s YR = v(YR ) ≈ 458930
( )
( )
)
• 用简单估计对货运量进行估计
ˆ Y = Ny = 2860 × 1123.2 = 3212352
1,2 , 1,3 , 1,4 , 1,5 , 1,6 , 2,3 , 2,4 , 2,5 , 2,6 , 3,4 , 3,5 , 3,6 , 4,5 , 4,6 , 5,6 ,
简单估计 2 6 9.5 15 23.5 7 10.5 16 24.5 14.5 20 28.5 23.5 32 37.5
y ˆ =N =∑ h X =∑ ˆ YS yS Y R R h Rh x h
2 o bn dRti e ti a r .C mi e a o s mto
分别比率估计量要求每一层的样本量都比 y 计st 由h 计 由 h 估 y , x 估x 。 st 较大,如果达不到这个要求,则它的偏倚可 能比较大,这时使用联合比率估计量。 combined ratio estimator
yst ˆ yRC = X = RC X xst ˆ = yst X = N ˆ YR比较
W2 2 2 ˆ 垐 YRS V(Y s ) = N2∑ h (Syh + R2Sxh −2R Syxh ) R h h n h W2 2 ˆ 2 垐 YRC V(Y c ) = N2∑ h (Syh + R2Sxh −2R Syxh ) R c c n h
(
)
比率估计量优于简单估计量的条件是:
2 R 2 S x − 2 RρS y S x < 0
1 Sx X Cx ρ> = 2 S y Y 2C y
正高度 相关
2.比率估计成为最优线性无偏估计的条件 (1). yi 与 x 的关系是过原点的直线 (2). yi 对这条直线的方差与 x 成比例。 则比率估计是最优线性无偏估计(BLUE)。
比估计 18 18 17.1 16.875 21.15 15.75 15.75 16 20 16.3 16.36 19.73 16.27 19.2 18.75
y yR = X = x
∑y ∑x
i i
X
1 15 E ( y R ) = ∑ y Ri ≈ 17.686 15 i =1
1 2 V ( y R ) = ∑ [ y Ri − E ( y R )] ≈ 2.82 15 i =1
2 ˆ ≈ N (1 − f ) s 2 = 3.43303 × 1011 v Y y n
( )
ˆ v(YR ) ˆ deff = ≈ 0.6135 ˆ v(Y )
实际中对于样本量较小的情形, 使用比率估计量时不能忽视其偏倚。
ˆ s Y
( )
ˆ = v(Y ) ≈ 585921
四、分层随机抽样下的比率估计
^ x
• 调整来自样本的估计量以便它们反映人
口统计学的总量。 口统计学的总量。
• 在一所具有4000名学生的大学提取一个 400个学生的简单随机样本,此样本可能 包含240个女性,160个男性,且其中被 抽中的84名女性和40名男性计划以教学 为毕业后的职业。
4000 ×124 = 1240 400
i
Yi
Xi
i
Yi
Xi
1 2 3 4 5
780 1500 1005 376 600
100 50 50 10 20
6 7 8 9 10
2170 1823 1450 158 1370
120 150 80 20 50
• 该县船舶在调查月完成货运量的比率估 计为 y 1123.2
ˆ YR = x X = 65 × 154626 = 2671937
ˆ ˆ •V(yR ) =V(XR) = X 2V(R) 如果各层的样本量不小的话,则可以采用 各层分别进行比率估计,将各层加权汇总 ˆ ) = N2 X 2V(R) ˆ V(YR 得到总体指标的估计,这种方式称为分别 >0.5时 估 比srs 有 高 精 。 ,比 计 当R 更 的 度 比率估计量。separate ratio estimator
三、比率估计的效率
• 1.与简单估计的比较 简单估计量无偏,而比率估计量渐近无偏。 因此这里只比较当n比较大的情形。
1− f 2 V ( y) = Sy n
1− f 2 1− f 2 V ( yR ) ≈ S y + R 2 S x2 − 2 RS yx = ( S y + R 2 S x2 − 2 RρS y S x ) n n
2
【例4.1】对以下假设总体(N=6),用简单随机抽样抽 例4.1 取的样本,比较简单随机抽样比估计及简单估计的性质。
1
2 1 3
3 3 11
4 5 18
5 8 29
6 10 46
平均值 4.5 18
Xi
0 1
Yi
C = 15 样本
2 6
yR
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
比率估计的近似方差 ˆ V(y ) =V(Xˆ) = X V(R) R
2 R
ˆ ˆ V(YR ) = N2 X 2V(R)
ˆ ) = E (R − R)2 ≈ ˆ V (R
>0.5时 估 比srs 有 高 1 度 ,比 计 当R 更 的 精 。
2
1 ɵ ∑ − f 1∑∑Y − RX ) =1− f S + R S −2RS VR≈ ( yx nX ∑nX N −1 ∑
Chapter 4 Ratio and Regression Estim ator
• 1802年,拉普拉斯想要估计法国的人口数目。他获得 了一个遍布全国范围的30commune的样本,截至1802 年9月23日总共有2,037615居民。在包括1802年9月23 日以前的三年中,215599个新生儿在30个commune。 • 拉普拉斯认为30个commune的每年注册的新生儿数为 215599/3=71866.33.把2037615按照71866.33来分,拉普 拉斯估计每年每28.35人里有一个注册新生儿。 • 具有众多人口的乡镇也就可能有同样众多的注册新生 儿,通过用28.35乘以全法国年度新生儿总数来估计得 出法国人口总数。 • 调查中都有辅助信息,抽样框也通常有每个单元额外 的信息,这些信息能被用来提高我们的估计精度。
n
ˆ 1 − f 1 ∑ ( yi − Rxi ) 2 ˆ v1 ( R ) ≈ nX 2 n − 1 i =1
2
()
(
)
1− f 1 n ˆ ˆ v1 ( R ) ≈ ( yi − Rxi )2 ∑ 2 nX n − 1 i =1
ˆ ) ≈ 1 − f ( s 2 − 2 Rs xy + R 2 s x ) ˆ ˆ 2 v2 ( R y nx 2
u u
^
^
^
y =y+β X−x =y−β x−X ( ) ( ) Lr ˆ Y =N y
Lr Lr
) β=0 则 Lr =y (srs; , y 若 令
y β=R则Lr =y+x(X−x)=yR( 估 ) , y 若 令 比计
回 估 应 的 种 况 归 计 用 两 情 :
1 . 先 定 β事 确 设
84 40 × 2700 + ×1300 = 1270 240 160
y x
• 比率估计量被用来对无回答进行调整 • 设抽取一个行业的样本:令yi为i行业花费在健 康保险上的金额,xi为i行业的雇员数。假定对 总体中的每个行业xi均已知。我们希望一个行 业花费在健康保险上的金额与雇员数相关。某 些行业在调查中可能涉及不到。估计保险费用 的总花销时调整无回答的方法之一是用总体数 X 乘以比率 y
如果每一层样本量都比较大,各层R相差较大,则分别比 率估计量的方差小于联合比率估计量的方差。 但当每层的样本量不太大时,还是采用联合比率估计量更 可靠些,因为这时分别比率估计量的偏倚很大,从而使总 的均方误差增大。
^
、e r s io simt r 六 Rg es nEt ao
y
reg
= B 0 + B1x = y + B1( x − x)
x
一 、 Ratio Estimator
y ∑y X 在 srs 条件下, yR = X = x ∑x y ∑y X = Ny ˆ YR = X = R x ∑x ˆ=y R x X 1− f ∑(Yi − R i ) ˆ 辅助指标x,其总体均值(总量)已知 辅助指标x V(R) = 2 (总量) 其总体均值 N −1 nX
相关文档
最新文档