第五章 比率与回归估计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二、比率估计量的偏差与均方误差
比率估计量是有偏的,但当样本量增大时其偏 差将趋近于零。 下表是容量为5的总体,列出了两个变量的值, 计算全部可能的n=3的简单随机样本指标。
i yi xi
1 6 3
2 7 4
3 9 6
4 10 8
5 13 9
样本号 1
y
2 3 4 5 6 7 8 9 10
比率估计量将有很高的精度.只有当两个变量 大致成正比例关系时,应用比率估计量才能使 估计精度有较大改进.
若分别以S , S 表示两个变量的总体方差,
2 Y 2 X
以SYX表示总体协方差, 表示总体相关系数
1 2 2 SY (Yi Y ) N-1 1 2 2 SX (Xi X ) N-1 1 SYX (Yi Y )( X i X ) N-1 SYX SY S X
第五章 比率估计与回归估计 教学目的与要求
掌握总体比率、比率估计量及回归估计量的概 念 了解比率估计量、回归估计量的偏差、方差及 方差的估计量 掌握应用比率估计量及回归估计量的条件。
第一节 问题提出
有时涉及两个调查变量Y和X,除了估计两个变 量的总值和均值,还常常要估计两个变量的总 体均值或总体总值之比,称为总体比率R。 总体比率的内涵可以有不同,有时是总体均值, 有时是总体比例,有时是一般的相对数,但在 形式上总是表现为两个变量总值或均值之比。
五、多元比率估计
当有辅助变量可资利用且辅助变量与 调查变量有较高正相关性时,比率估 计比简单估计能较大地提高估计精度, 对于调查变量Y,若有p个具有正相关 性的辅助变量X1, X 2 , , X p , 可以构造多 元比率估计。
设 y Rk 是 Y 的基于第k个辅助变量的比率估计, 则Y 的多元比率估计量为 y MR Wk y Rk
合计
样本包含 的单位号 (1,2,3) (1,2,4) (1,2,5) (1,3,4) (1,3,5) (1,4,5) (2,3,4) (2,3,5) (2,4,5) (3,4,5)
y
7.33
x
4.33
ຫໍສະໝຸດ Baidu
R
1.5340 1.6266 1.4691 1.5550 1.4498 1.4450 1.5276 1.4286 1.3911
对于简单估计量 y, 它的方差 1 f 2 V ( y) SY n V ( y R ) V ( y )的条件是R S 2 R SY S X 0
2 2 X
RS X SX Y CX 即 2SY 2S X 2CY Y
并非任何情况下比率估计量都优于简单估计量 只有当调查变量与辅助变量有较高的正相关性 时比率估计量才能使估计精度有较大提高. 1 若C Y C X ,只需当 时比率估计量就比简单 2 估计量精度高.
2 y 2 x
2
nx
1 n 1 n 2 2 2 2 sy ( yi y) , sx n 1 ( xi x) , n 1 i 1 i 1 1 n s yx ( yi y)( xi x), 类似地, 估计V ( y R ),V (Y R ) n 1 i 1
对于一般的n,比率估计量呈右偏分布, 但当 n 30, C 0.1, C 0.1, 这些条件同时满足时,
x y
能够直接用正态分布构造比率估计量的置信 区间, R的置信去间为 [ R tse( R), R tse( R)] 类似可得 Y , Y的置信区间.
1 在简单随机抽样下当n ,B ( R )具有 的阶 n 因此只要样本容量n比较大, 就有E( R ) R E ( y R ) Y , E (Y R ) Y . R, y R , Y R 分别是R, Y , Y的近似无偏估计量. MSE( R ) V( R )
企业 xi yi 企业 xi yi
1 764 853 7 1618 1826
2 1642 1835 8 1532 1721
3 957 1028 9 834 958
4 1324 1512 10 1432 1648
5 2131 2286 11 1728 1904
6 1176 1354 12 1214 1534
总体比率的含义
例如Y,X分别表示调查单位产量和播种面积, 则R为平均亩产,即总体均值。例如Y,X分别 表示调查单位60岁以上老年人数和家庭人口数, 则R表示全地区60岁以上老年人比例,即总体 比例。若Y,X分别表示家庭男女人口数,则R 表示全地区性别比。 总体比率和总体比例区别:P是总体调查单位 数N已知,只涉及一个调查变量,而R涉及两 个调查变量,均需调查。
第二节 比率估计
一、比率估计量
在简单随机抽样下,若分别以y, x表示样本总值,以 y, x 表示样本均值,以 R 表示样本比率, y y R , x x 用 R 作为总体比率R的估计,称之为R的比率估计.
若X 是与Y 高度相关的辅助变量且总体均值 X 或总体总值X已知, 可以利用辅助变量构造 调查变量总体均值,总体总值Y的比率估计量为: y Y yR R X X , x y Y R R X X N yR x 比率估计量 R, y R , Y R 中任何两个之间都仅差一个 常数,性质相同.
(Yi RX i ) 2 1 f V ( R) 2 N 1 nX 2 1 f (Yi RX i ) V ( yR ) n N 1 2 2 N (1 f ) (Yi RX i ) V (Y R ) n N 1 当Yi RX i , 即Yi X i R时, 估计量方差将很小.
i 1
33
试估计该地区平均每人每天用于食品的支出,并求 其置信水平95%的置信区间。
例3 某系统有56个企业,去年全系统总 产值86436万元,为估计今年总产值,年 底在所辖全部企业中随机抽取12个企业 进行调查得以下资料,其中xi和yi分别为 去年和今年产值。试估计今年总产值, 并给出抽样标准误的估计。
V ( R) 1 f
1 f
2
( S R S 2 RSYX )
2 Y 2 2 X
nX
2 ( SY2 R 2 S X 2 R SY S X ) 2
nX 1 f 2 2 V ( yR ) ( SY R 2 S X 2 RSYX ) n 1 f 2 2 ( SY R 2 S X 2 R SY S X ) n N 2 (1 f ) 2 2 2 V (Y R ) ( SY R S X 2 RSYX ) n N 2 (1 f ) 2 2 ( SY R 2 S X 2 R SY S X ) n
例2 在某地区抽取由33个住户组成的简单随机样 本,对每户调查两个指标:人口数xi和每天用于 食品支出的费用yi,经计算得
33 33 33 33 i 1 i 1 i 1 i 1
xi 123, yi 907.2, xi2 533, yi2 28224, xi yi 3595.5
k 1 p
y Wk Xk xk k 1
p
式中y, x1 , , x p 是相应变量的样本总值。 X 1 , , X p 是辅助变量总体均值,Wk 是适当选取 的权数。
多元比率估计的主要问题是Wk的选取,确定 Wk的原则是使V ( y MR )达到极小。在p 2情形下 y MR W1 y R1 W2 y R2 V ( y MR ) W12V ( y R1 ) 2WW2 cov( y R1 , y R2 ) W22V ( y R2 ) 1 W V 2WW2V12 W V 1
四、比率估计量优于简单估计量的条 件
在对调查变量总体均值、总体总值进行 估计时,只有当调查变量与辅助变量有 大致的正比例关系时比率估计量才能使 估计精度有较大提高,以总体均值为例, 定量的分析在什么条件下比率估计量优 于简单估计量。
当n足够大时,比率估计量 y R 的方差为 1 f 2 2 2 V ( yR ) ( SY R S X 2 R SY S X ) n
yR
9.2040 9.7598 8.8148 9.3300 8.6987 8.6700 9.1659 8.5714 8.3468
1.6928 10.1570
7.67 8.67 8.33 9.33 9.67 8.67 9.67 10.00 10.67
90.01
5.00 5.33 5.67 6.00 6.67 6.00 6.33 7.00 7.67
60.00
15.1196 90.7184
Y 45, Y 9, X 30, X 6, R Y X 45 / 30 1.5 1 10 全部可能样本10个,E( R )= Ri 1.51196 10 i 1 R 的偏差为B( R) E( R )-R=0.01196 y R 的偏差为B( y R ) E ( y R ) Y 0.07184 当样本容量更大时,偏差会更小.
2 1 11 2 2 22
W1 W2 1
为求W1 W2 1的约束下, 使V ( y MR )达到极小的权数, 可利用拉格朗日乘数法, 令 V * W12V11 2WW2V12 W22V22 2 (W1 W2 1) 1 V * 2WV11 2W2V12 2 0 1 W1 V * 2WV12 2W2V22 2 0 1 W2 V22 V12 V11 V12 W2 1 W1解得W1 ,W2 , V11 V22 2V12 V11 V22 2V12
n N
v1 ( R)
1 f
2
(y R x )
i 1 i i
n
2
nX
n
n 1
2
1 f
2
( s R s 2 R s yx )
2 y 2 x
2
nX
i
v2 ( R)
1 f
2
(y R x )
i 1 i
nx
n 1
1 f
2
( s R s 2 R s yx )
若以CY , C X 表示两个变量的总体变异系数, 则CY SY Y , C X S X X 1 f 2 2 2 V ( R) R (CY C X 2 CY C X ) n 2 1 f 2 2 V ( yR ) Y (CY C X 2 CY C X ) n Y 2 (1 f ) 2 2 V (Y R ) (CY C X 2 CY C X ) n
x
i=1
12
i
16352, x 24043730, x 1362.67,
i 1 12 2 i
12
y
i=1 12 i=1
12
i
18459, y 30405031, y 1538.25
i 1 2 i i
x y
i
27016552
12个企业两年产值(万元)
三、比率估计量方差的样本估计与比 率估计量的置信区间
比率估计量的方差公式中都涉及有关未知 总体参数,因此必须用样本估计,通常用 1 1 2 2 ( yi R xi ) 作为 N-1 (Yi R X i ) 的估 n-1 i 1 i 1 计, 这个估计是有偏的, 当n 时, 偏差 0. 当样本容量较大时,可以用
此时最小化方差
2 V11V22 V12 Vmin ( y MR ) , 实际估计中V11 , V22 , V12 V11 V22 2V12