第五章比率估计与回归估计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Vmin y MR
w
k 1
p
k
1。
w2 V11 V12 V11 V 22 2V12
V22 V12 w1 V11 V22 2V12
2 V11V22 V12 V11 V22 2V12
12
案例三
为精确地估计某地区皮棉总产量,在该地区 301 个村庄中 简单随机抽取 18 个村庄,在调查皮棉产量 y 的同时记录了皮
907.2 = 123
7.33
i

≈0,
n
ˆ ) = 1 2f v2 (R
nx
ˆ )2 ( yi Rx i
i 1
n

n 1
33
(n 1)( xi ) 2
i 1
n
ˆ ( y R
i 1 2 i
n
2
x
i 1
n
2 i
ˆ y ቤተ መጻሕፍቲ ባይዱ ) 2R i i
i 1
n
将 n=33,
16352
y x =27016552
i 1 i i
12
ˆ =R ˆ Y R
X = 18459 ×86436=97573.52 (万元)
2
n
ˆ )2 N (1 f ) ( yi Rx i ˆ v(YR ) i 1 n n 1
2 56( 1-
=
12 ) 56 ( 12 11
ˆ 2 xi2 -2 R ˆ y x )=909860.5376 y +R i 1 i 1
2 ˆ ) N (1 f ) ( s 2 R ˆ 2 s 2 2R ˆ s ) =56158.11 v(Y R1 y 1 x1 1 yx1 n
ˆ ) =236.98 se(Y R1
ˆ R ˆ X R ˆ N X 2 13.7967 ×301×40.10=4331.63 Y R2 2 2 2 38.4444
SYX B时 2 SX V ( ylr ) 达最小值
当 0
1-f 1 N 2 [( Y Y ) ( X - X )] i 0 i n N 1 i 1 1-f 2 2 ( SY 02 S X 2 0 SYX ) n
2 1 f 2 SYX 1 f 2 Vmin ( ylr ) (SY 2 ) SY (1 2 ) n SX n
17

三、 β 取样本回归系数情形
若β 需根据样本确定,一个合理的选择是取β 为样 本回归系数
n
b
此时 Y 的回归估计量
s yx
2 sx

( y y)( x x)
i 1 i i 2 ( x x ) i i 1 n
ylr y b( x X )
为一复杂估计量,不再具有无偏性。
ˆ wY ˆ ˆ Y MR 1 R1 w2Y R 2 ==4248.98
2 2 ˆ ) N (v11v22 v12 ) =33014.94 v(Y MR v11 v22 2v12
ˆ ) =181.20 se(Y MR
由此可见,二元比率估计比两个一元比率估计精度都高,这是由于它使用了更多的正相关 性辅助信息的缘故。
0

二、β 为设定常数情形
设 0是设定常数,取β = 0 ,则回归估计量
ylr y 0 ( X x) y 0 ( x X )
1-f 1 N 是 Y 的无偏估计量。 其方差为 V ( y lr ) [Yi 0 ( X i X ) Y ]2 n N 1 i 1
ˆ =7.33 R

y
i 1
2 i
=28224,
x
i 1
33
2 i
=533,
y x =3595.5 代入得
i 1 i i
33
ˆ ) =0.285156, v2 (R
1- =0.95,
u
2
ˆ )= se ( R
2
ˆ ) =0.534 v( R
ˆ -u =1.96,[ R
2
i
棉种植面积 x 和良种比例 x 。该地区皮棉种植总面积为 X =
1i 2i 1
7450 公顷,采用良种的平均比例为 X =40.10(%) 。对调查
2
数据经过计算得如下结果:
y 13.7967,
2 sy 35.4858 ,
x1 24.43899,
2 sx 74.6789187 , 1
2 ˆ ) N (1 f ) ( s 2 R ˆ 2 s 2 2R ˆ s ) =126844.51 v(Y R2 y 2 x2 2 yx2 n
ˆ ) =356.15 se(Y R2
再考虑二元比率估计。
w1 v22 v12 =0.6568, v11 v22 2v12
w2 =1- w1 =0.3432
18 16 14 12 10 8 6 4 2 0 50-60 70-80
35% 30% 25% 20%
`
15% 10% 5% 0% 90-100
第五章 比率估计与回归估计
本章要点
本章讨论了简单随机抽样和分层随机抽样下比率估计量
和回归估计量的构造及性质。要求:
①掌握总体比率、比率估计量及回归估计量的概念。 ②了解比率估计量、回归估计量的偏倚、方差及方差的 估计量。 ③掌握应用比率估计量及回归估计量的条件。

3
第二节

比率估计
ˆ y y 为样 R x x
一、比率估计量 设对有两个调查变量Y 和X 的总体进行简单随机抽样 ,分别以y, x表示样本总值 ,以 本比率 ,用
y , x表示样本均值,以
ˆ 作为总体比率 R的估计称为的比率估计 。 R
比率估计量除了使用调查变量样本信息外,还要使用辅助变量 总体信息与样本信息,而且是非线性估计量。这类估计量称为复杂 估计量。由于比率估计量使用的信息比简单估计量多,因而有可能 比简单估计量有更高的精度。同时由于比率估计量是非线性估计量, 因而对其性质的研究比对简单估计量要复杂得多。
5

三、 比率估计量方差的估计与置信区间
对于一般的n,比率估计量呈右偏分布,只有
当n>30,
Cx<0.1, Cy <0.1这些条件同时满足时才
能直接用正态分布构造置信区间。R的置信区间为
ˆ[ u se( R ˆ ), R ˆ u se( R ˆ )] ] [R
2 2
其中 u 是标准正态分布的上α /2分位点,0<α <
33
=28224
yx
i 1
33
i i
=3595.5
试估计该地区平均每人一天用于食品的支出,并求其置信水平 95% 的置信区间。
7
解 答过程
设该地区共有 N 户,要估计的是 R N 很大, f
n N
Yi X
i 1 i 1 N i
N

ˆ= R
y x
i 1 i 1 33
33
i

4

二、比率估计量的偏倚与均方误差
比率估计量是有偏估计量,但当样本量增大时其偏倚 将趋于零 。 ˆ , y ,Y ˆ 分别为 R, Y , Y 的近似无 理论上可以证明,R R R 偏估计量,而且对于比率估计量,其方差主要取决于 Yi 与 RX i 之间的差异,当 Yi RX i 时,估计量方差将很小。 换言之,比率估计量将有很高的精度。这告诉我们,只 有当两个变量大致成正比例关系时,应用比率 估计量才能使估计精度有较大改进。
2
第一节 问题的提出
在许多实际问题中常常涉及两个调查变量(指标) Y 和X 。 对于包含个抽样单元的总体除了对总体信息进行估计外,常 常要估计总体比率R。总体比率在形式上总是表现为两个变 量总值或均值之比。 在涉及两个变量的抽样调查中,有两种情况需要应用比率 估计量。一种情况是利用双变量样本对总体比率进行估计需 应用比率估计量,此时两个变量均为调查变量。另一种情况 是一个变量为调查变量,另一个变量表现为与调查变量有密 切关系的辅助变量,在对调查变量总体总值、总体均值等目 标量进行估计时,利用已知的辅助变量信息构造比率估计量 可以改进估计的精度。 基于这种考虑利用已知的辅助变量信息构造比率估计量就 可使估计精度加以改进。
15
第三节

回归估计
一、定义 在简单随机抽样下,总体均值 Y 和总体 总值Y的回归估计量定义为:
ylr y+( X x) y ( x X )
ˆ Ny Y lr lr
其中 y , x 分别为调查变量、辅助变量 的样本均值,X 是辅助变量的总体均值,
称为回归系数。
16
18

四、回归估计与比率估计及简单估计的大样本比较
对于大的样本量,总有
V ( ylr ) V ( y)
这就是说在大样本下回归估计总是优于简单估计,仅在ρ =0时两 者效果相同。
V ( ylr ) V ( y R )的充分必要条件为
2 2 2 SY (1 2 ) S Y +R2 S X 2R SY S X
y i 分别为去年和当年产值。
表 5-3 企业
1 2 3 4 5
12 个企业两年产值
6 7 8 9 10 11 12
xi
764 1642 957 1324 853 1835 1028 1512
2131 1176 1618 1532 834 2286 1354 1826 1721 958
1432 1728 1214 1648 1904 1534
x2 38.4444
2 sx 174.9671 2
syx1 =42.26167 ,
syx2 =46.5118 ,
1-f 0.0522332 n
现利用种植面积和良种比例为辅助变量对皮棉产量进行 比率估计。
13
解答过程
先考虑一元比率估计。
ˆ R ˆ X 13.7967 ×7450=4205.80 Y R1 1 1 24.43899
yi
试估计今年总产值,并给出标准差的估计。
9
解答过程
以去年产值变量为辅助变量构造比率估计量计算可得
x =24043730 , x =1362.67, x =16352, i 1
12 i 1 i
12
2 i
y =18459,
i 1 i
12
y
i 1
12
2 i
=30405031 ,
y =1538.25,
简单估计量精度高。
11

五、多元比率估计
对于调查变量Y ,若有p个具有正相关性的辅助变量 X1 , X 2 ,......, X p , 则可构造多元比率估计。 设 y Rk 是 Y 的基于第k个辅助变量的比率估计,则 Y 的多元比率 p p y y w y w Xk 估计量为: k Rk k MR xk k 1 k 1 其中 y, x1 , x2 , , x p是相应变量的样本总值,X 1, X 2 , , X p 是辅助 变量总体均值,wk 是适当选取的权,满足 利用拉格朗日乘数法可计算得 此时最小方差为
这等价于
( B R) 2 (
SYX SY 2 2 R ) ( R ) 2 SX SX
因此除非Y 关于X 的总体回归系数B=R,否则回归估计总是优于
比率估计,仅在B=R时两者效果相同。
19
案例四
某地区有规模以下工业企业 127 个, 共有固定资产价值 6794.5 万元,从中随机抽取 20 个企业调查工业产值及固定资产价值,资料 如表 5-4 所示。试估计该地区规模以下工业总产值及其标准差。 表 5-4
ˆ )]=[6.28,8.38] se ( Rˆ ), Rˆ + u se ( R
故该地区人均每天食品支出 7.33 元,区间估计为[6.28,8.38]元。
8
案例二

某系统有 56 个企业,去年全系统总产值 86436 万元。为估计今年总产值, 当年年底在所辖全部企业中随机抽取 12 个企业进行调查得如下资料,其中 xi ,
14

六、乘积估计
当辅助变量X 与调查变量Y 呈负相关关系时,不能应用比率估计 而应改用乘积估计
xy yp X
ˆ N xy Y p X
CX 2CY
乘积估计优于简单估计的条件是

此时
< -
V ( y p ) < V ( y)
在实际问题中与调查变量呈负相关的变量很少见,因此乘积估计 应用极为有限。
2 i
12
12 i 1 i i
12
ˆ se ( Y
R
)=953.87
10

四、 比率估计量优于简单估计量的条件
定量分析计算表明,并非任何情况下比率估计量都优于简单估计量,
只有当调查变量与辅助变量有较高的正相关性时比率估计量才能使估计 精度有较大提高。若
CY

C X,则只需当ρ >
0.5 时比率估计量就比
2
1。类似可得
Y 、Y的置信区间。
6
案例一
在某地区抽取由 33 个住户组成的简单随机样本, 对每户调查两个指标:
xi ——第 i 户人口数,
yi ——第 i 户一天用于食品支出的费用,
经计算得
xi
i 1
33
=123
2 i
y
i 1
33
i
=907.2
x
i 1
33
2 i
=533
y
i 1
相关文档
最新文档