第五章 比率与回归估计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
总体比率的含义
例如Y,X分别表示调查单位产量和播种面积, 则R为平均亩产,即总体均值。例如Y,X分别 表示调查单位60岁以上老年人数和家庭人口数, 则R表示全地区60岁以上老年人比例,即总体 比例。若Y,X分别表示家庭男女人口数,则R 表示全地区性别比。 总体比率和总体比例区别:P是总体调查单位 数N已知,只涉及一个调查变量,而R涉及两 个调查变量,均需调查。
12ຫໍສະໝຸດ Baidu
∑x
i=1 12
i
= 16352, ∑ x = 24043730, x = 1362.67,
i =1 12 2 i
12
−
∑y
i=1 12 i=1
i
= 18459, ∑ y = 30405031, y = 1538.25
i =1 2 i i
−
∑xy
i
= 27016552
12个企业两年产值(万元)
∧
比率估计量将有很高的精度.只有当两个变量 大致成正比例关系时,应用比率估计量才能使 估计精度有较大改进.
若分别以S , S 表示两个变量的总体方差,
2 Y 2 X
以SYX表示总体协方差, ρ 表示总体相关系数
− 1 2 2 SY = ∑ (Yi − Y ) N-1 − 1 2 2 SX = ∑ (Xi − X ) N-1 − − 1 SYX = ∑ (Yi − Y )( X i − X ) N-1 SYX ρ= SY S X
y
7.33 7.67 8.67 8.33 9.33 9.67 8.67 9.67 10.00 10.67 90.01
−
x
4.33 5.00 5.33 5.67 6.00 6.67 6.00 6.33 7.00 7.67 60.00
∧
−
R
yR
1.6928 10.1570 1.5340 9.2040 1.6266 9.7598 1.4691 1.5550 1.4498 1.4450 1.5276 1.4286 1.3911 8.8148 9.3300 8.6987 8.6700 9.1659 8.5714 8.3468
∧ ∧ ∧ − ∧ − − − ∧ ∧
∧
(Yi − RX i ) 2 1− f ∑ V ( R) ≈ − 2 N −1 nX 2 − 1 − f ∑ (Yi − RX i ) V ( yR ) ≈ n N −1 2 2 ∧ N (1 − f ) ∑ (Yi − RX i ) V (Y R ) ≈ n N −1 当Yi ≈ RX i , 即Yi X i ≈ R时, 估计量方差将很小.
第五章 比率估计与回归估计
教学目的与要求
掌握总体比率、比率估计量及回归估计量的概 念 了解比率估计量、回归估计量的偏差、方差及 方差的估计量 掌握应用比率估计量及回归估计量的条件。
第一节 问题提出
有时涉及两个调查变量Y和X,除了估计两个变 量的总值和均值,还常常要估计两个变量的总 体均值或总体总值之比,称为总体比率R。 总体比率的内涵可以有不同,有时是总体均值, 有时是总体比例,有时是一般的相对数,但在 形式上总是表现为两个变量总值或均值之比。
33
33
33
33
试估计该地区平均每人每天用于食品的支出,并求 其置信水平95%的置信区间。
例3 某系统有56个企业,去年全系统总 产值86436万元,为估计今年总产值,年 底在所辖全部企业中随机抽取12个企业 进行调查得以下资料,其中xi和yi分别为 去年和今年产值。试估计今年总产值, 并给出抽样标准误的估计。
V ( R) ≈ = 1− f
− 2
∧
1− f
− 2
( S + R S − 2 RSYX )
2 Y 2 2 X
nX
2 ( SY2 + R 2 S X − 2 R ρ SY S X )
nX 1− f 2 2 2 V ( yR ) ≈ ( SY + R S X − 2 RSYX ) n 1− f 2 2 2 = ( SY + R S X − 2 R ρ SY S X ) n ∧ N 2 (1 − f ) 2 2 V (Y R ) ≈ ( SY + R 2 S X − 2 RSYX ) n N 2 (1 − f ) 2 2 = ( SY + R 2 S X − 2 R ρ SY S X ) n
15.1196 90.7184
Y = 45, Y = 9, X = 30, X = 6, R = Y X = 45 / 30 = 1.5 1 10 ∧ 全部可能样本10个,E( R )= ∑ R i = 1.51196 10 i =1 R 的偏差为B( R) = E( R )-R=0.01196 y R 的偏差为B( y R ) = E ( y R ) − Y = 0.07184 当样本容量更大时,偏差会更小.
五、多元比率估计
当有辅助变量可资利用且辅助变量与 调查变量有较高正相关性时,比率估 计比简单估计能较大地提高估计精度, 对于调查变量Y,若有p个具有正相关 性的辅助变量X1, X 2 ,… , X p , 可以构造多 元比率估计。
设 y Rk 是 Y 的基于第k个辅助变量的比率估计, 则Y 的多元比率估计量为 y MR = ∑ Wk y Rk
− − − − ∧ ∧ ∧ ∧
−
−
1 在简单随机抽样下当n → ∞,B ( R)具有 的阶 n 因此只要样本容量n比较大, 就有E( R ) ≈ R E ( y R ) ≈ Y , E (Y R ) ≈ Y . R, y R , Y R 分别是R, Y , Y的近似无偏估计量. MSE( R ) ≈ V( R )
−
若以CY , C X 表示两个变量的总体变异系数, 则CY = SY Y , C X = S X X 1− f 2 2 2 V ( R) ≈ R (CY + C X − 2 ρ CY C X ) n − −2 1− f 2 V ( yR ) ≈ Y (CY2 + C X − 2 ρ CY C X ) n 2 ∧ Y (1 − f ) 2 2 V (Y R ) ≈ (CY + C X − 2 ρ CY C X ) n
样本包含 的单位号 (1,2,3) , , ) (1,2,4) , , ) (1,2,5) , , ) (1,3,4) , , ) (1,3,5) , , ) (1,4,5) , , ) (2,3,4) , , ) (2,3,5) , , ) (2,4,5) , , ) (3,4,5) , , )
−
k =1 − p − −
−
−
y − = ∑ Wk Xk xk k =1
p
式中y, x1 ,… , x p 是相应变量的样本总值。 X 1 ,… , X p 是辅助变量总体均值,Wk 是适当选取 的权数。
− −
多元比率估计的主要问题是Wk的选取,确定 Wk的原则是使V ( y MR )达到极小。在p = 2情形下 y MR = W1 y R1 + W2 y R2 V ( y MR ) = W12V ( y R1 ) + 2W1W2 cov( y R1 , y R2 ) + W22V ( y R2 ) = W V + 2W1W2V12 + W V
∧ − ∧ ∧ − ∧ − −
二、比率估计量的偏差与均方误差
比率估计量是有偏的,但当样本量增大时其偏 差将趋近于零。 下表是容量为5的总体,列出了两个变量的值, 计算全部可能的n=3的简单随机样本指标。
i yi xi
1 6 3
2 7 4
3 9 6
4 10 8
5 13 9
样本号 1 2 3
−
y
4 5 6 7 8 9 10 合计
2 1 11 2 2 22 − − − − − − − − −
W1 + W2 = 1
为求W1 + W2 = 1的约束下, 使V ( y MR )达到极小的权数, 可利用拉格朗日乘数法, 令 V * = W12V11 + 2W1W2V12 + W22V22 + 2λ (W1 + W2 − 1) ∂V * = 2W1V11 + 2W2V12 + 2λ = 0 ∂W1 ∂V * = 2W1V12 + 2W2V22 + 2λ = 0 ∂W2 V22 − V12 V11 − V12 , W2 = , W2 = 1 − W1解得W1 = V11 + V22 − 2V12 V11 + V22 − 2V12
∧ − −
三、比率估计量方差的样本估计与比 率估计量的置信区间
比率估计量的方差公式中都涉及有关未知 总体参数,因此必须用样本估计,通常用 1 1 2 2 ∑ ( yi − R xi ) 作为 N-1 ∑ (Yi − R X i ) 的估 n-1 i =1 i =1 计, 这个估计是有偏的, 当n → ∞时, 偏差 → 0. 当样本容量较大时,可以用
企业 xi yi 企业 xi yi
1 764 853 7 1618 1826
2 1642 1835 8 1532 1721
3 957 1028 9 834 958
4 1324 1512 10 1432 1648
5 2131 2286 11 1728 1904
6 1176 1354 12 1214 1534
四、比率估计量优于简单估计量的条 件
在对调查变量总体均值、总体总值进行 估计时,只有当调查变量与辅助变量有 大致的正比例关系时比率估计量才能使 估计精度有较大提高,以总体均值为例, 定量的分析在什么条件下比率估计量优 于简单估计量。
当n足够大时,比率估计量 y R 的方差为 1− f 2 2 2 V ( yR ) ≈ ( SY + R S X − 2 R ρ SY S X ) n
1− f
−2
( yi − R xi ) 2 ∑
i =1
nx
n −1
nx
− − 1 n 1 n 2 2 2 sy = ( yi − y ) , sx = ( xi − x) 2 , ∑ ∑ n − 1 i =1 n − 1 i =1 − − − ∧ 1 n s yx = ∑ ( yi − y)( xi − x), 类似地, 估计V ( y R ),V (Y R ) n − 1 i =1
第二节 比率估计
一、比率估计量
在简单随机抽样下,若分别以y, x表示样本总值,以 y, x 表示样本均值,以 R 表示样本比率, y y R= = −, x x 用 R 作为总体比率R的估计,称之为R的比率估计.
∧ ∧ − − − ∧
若X 是与Y 高度相关的辅助变量且总体均值 X 或总体总值X已知, 可以利用辅助变量构造 调查变量总体均值,总体总值Y的比率估计量为: y − Y = yR = R X = X , x ∧ ∧ − y Y R = R X = X = N yR x 比率估计量 R, y R , Y R 中任何两个之间都仅差一个 常数,性质相同.
例2 在某地区抽取由33个住户组成的简单随机样 本,对每户调查两个指标:人口数xi和每天用于 食品支出的费用yi,经计算得
33
∑x
i =1
i
= 123, ∑ yi = 907.2, ∑ xi = 533, ∑ y = 28224,∑ xi yi = 3595.5
2 i =1 i =1 i =1 2 i i =1
−
−
对于简单估计量 y, 它的方差 − 1− f 2 V ( y) = SY n
2 V ( y R ) < V ( y )的条件是R 2 S X − 2 R ρ SY S X < 0 − − −
−
RS X SX Y CX 即ρ > = = − 2 SY 2 S X 2CY Y
并非任何情况下比率估计量都优于简单估计量 只有当调查变量与辅助变量有较高的正相关性 时比率估计量才能使估计精度有较大提高. 1 若C Y ≈ C X , 只需当ρ > 时比率估计量就比简单 2 估计量精度高.
n ∧ N
v1 ( R ) =
∧
1− f
− 2
∑(y − R x )
i =1 i i
n
∧
2
nX
n
n −1
∧
=
1− f
− 2
( s + R s − 2 R s yx )
2 y 2 x
∧2
∧
nX = 1− f
−2 2 2 ( s y + R sx − 2 R s yx ) ∧2 ∧
v2 ( R) =
∧
对于一般的n,比率估计量呈右偏分布, 但当 n > 30, C − < 0.1, C − < 0.1, 这些条件同时满足时,
x y
能够直接用正态分布构造比率估计量的置信 区间, R的置信去间为 [ R − tse( R ), R + tse( R)] 类似可得 Y , Y的置信区间.
− ∧ ∧ ∧ ∧