第五章比率估计与回归估计
第五章比率估计与回归估计

理论上可以证明,R?, yR ,Y?R 分别为 R,Y ,Y 的近似无
偏估计量,而且对于比率估计量,其方差主要取决于 Yi 与 RX i 之间的差异,当 Yi ? RX i 时,估计量方差将很小。 换言之,比率估计量将有很高的精度。这告诉我们,只 有当两个变量大致成正比例关系时,应用比率 估计量才能使估计精度有较大改进。
5
? 三、 比率估计量方差的估计与置信区间
对于一般的n,比率估计量呈右偏分布,只有
当n>30,
C
<0.1,
x
C
y
<0.1这些条件同时满足时才
能直接用正态分布构造置信区间。 R 的置信区间为
[
]
[ R? ? u? se(R?), R? ? u? se(R?)]
2
2
其中 u? 是标准正态分布的上α /2分位点,0<α <
? 基于这种考虑利用已知的辅助变量信息构造比率估计量就 可使估计精度加以改进。
3
第二节 比率估计
?
一、比率估计量
设对有两个调查变量Y 和X 的总体进行简单随机抽样 ,分别以y,
x表示样本总值 ,以
y , x表示样本均值,以 R? ? y ? y 为样 xx
本比率 ,用 作R? 为总体比率R的估计称为的比率估计 。
精度有较大提高。若
CY
≈
C
,则只需当ρ
2
第一节 问题的提出
? 在许多实际问题中常常涉及两个调查变量(指标) Y 和X 。 对于包含个抽样单元的总体除了对总体信息进行估计外,常 常要估计总体比率R。总体比率在形式上总是表现为两个变 量总值或均值之比。 在涉及两个变量的抽样调查中,有两种情况需要应用比率 估计量。一种情况是利用双变量样本对总体比率进行估计需 应用比率估计量,此时两个变量均为调查变量。另一种情况 是一个变量为调查变量,另一个变量表现为与调查变量有密 切关系的辅助变量,在对调查变量总体总值、总体均值等目 标量进行估计时,利用已知的辅助变量信息构造比率估计量 可以改进估计的精度。
第五章 比估计与回归估计(抽样理论与方法,河南财政学院)

ˆ) d 1 / 2 V(Y R
1 / 2 2 S d2 2 2 2 n d 0 1 / 2 S d 解得:n ,其中 n 0 2 d2 1 / 2 S d2 1 n0 1 N Nd 2
河南财经学院
例:某公司有1000名职工,为了估计职工今年与去年病假工时的比 率,要抽一个容量为n的简单随机样本进行调查。先随机抽了10人 作试点调查,数据如下: 编号 1 2 去年病假工时 12 24 今年病假工时 13 25
N
2 ( Y RX ) i i i 1
N
N 1
1 f n
N
2 ( Y RX ) 0 i i i 1
N 1
ˆ y 对于简单随机抽样, Y 的简单估计为 Y 1 f ˆ V (Y ) n 河南财经学院
2 ( Y Y ) i i 1
N 1
1 f 2 (2 RS x S y R 2 S x )〉 0 n
RS x Sx / X Cx 〉 2 S y 2 S y / Y 2C y 1 特别若C x C y,则〉 ,即比估计较相应的简 单估计更精确。 2
河南财经学院
4.估计R时样本量的确定:
ˆ 的方差上限为V , 如果R
2 2 i 1 i 1 i 1
10
10
10
2
xi 31.265
2 i 1
70
1 10 ˆ x ) 2 3.474 s d ( yi R i 9 i 1 16300 已知X 16300 , X 16 .3 1000 d2 0.012 5 V 2 . 603 10 1 / 2 1.96 2
xi 242 .0, xi 4706 .54
《抽样技术》第五章-回归估计量

从而
Vmin ylrs Wh2Vmin ylrh
h 1 L
L
W 1 f h 2 2 S yh 1 h nh h 1
其中
h 1
L Wh2 1 f h 2 ah S xh , Bc ah Bh nh h 1 L
பைடு நூலகம்
L
2
a
h 1
h
这一结果表明,除非各层的Bh相同,否则最佳选取 的分别估计量比组合估计量有更小的方差。当然, 2 要事先知道 Syxh和S xh 才能作出这些最佳的选择。
§5.7 从样本估计回归系数
§5.4 方差的样本估计
V ylr 的一个大样本估计量
n 1 f 2 2 s ylr yi y b xi x n n 2 i 1 2 n yi y xi x n 1 f 2 i 1 yi y n 2 n n 2 i 1 xi x i 1
经典的线性回归的理论的一些标准结果对抽样调查 并不都是适用的,因为它要假定y对x 的总体的回归 是线性的,y对这条回归线的剩余方差是常数,并且 总体是无限的。若前两个假定完全是错的,则线性 回归估计量可能就不能用了。然而在y对x的回归被 认为是近似线性的调查中,不必假定确切的线性关 系或常值的剩余方差就能用ylr 。
§5.2 b已预先确定情况下的回归估计量
在大部分的应用中,b是从样本的结果中估计得出的 ,这时b可视为一随机变量。但有时也有理由要事先 选好b的值,如有良好的经验和资料能较好地事先确 定好b ,这时b可视为一常数。 定理1 在简单随机抽样中,当b0是预先确定的常数 时,线性回归估计量 ylr y b0 X x
5第五章比估计与回归估计

RS X 1 S X X 1 C X 2 SY 2 SY Y 2 CY
(5.12)
(5.12)表明,如果变量X与Y正相关,且相关程度非常密 切的话,那么比估计的精度高于简单随机抽样的精度。如果 相关程度不那么密切( C X 2CY ),此时已知的X信息并 没有较多地提供Y的信息,借助X来推断 Y 也许会“帮倒忙” 假如X与Y是负相关,则更不能采用比估计方法,此时应采用 所谓乘积估计,即: x y x y p N yp , y (5.13) X X 当 n 充分大时,且满足:
如果简单随机样本为( xi , yi ) (i 1, 2,, n) ,则 Cov( X , Y ) 及 的估计为:
S xy
1 n ( xi x )( yi y ) n 1 i 1
(5.3)
ˆ
(x
i 1
n
i
x )( yi y )
1 2 1 2
(5.4)
1 SX X 1 CX 2 SY Y 2 CY
成立
(5.14)
Var ( yR ) Var ( y )
例5.1 某县小麦种植面积为218756亩,分布在N=576个村,为 估计全县产量,随机无放回地抽取n=24个村,所得数据如下
村i
1 2 3 4 5 6 7 8 9 10 11 12
数值例子例52某地区有976个自然村根据该地区的地貌将各村所属耕地划为三种类型各村按类型上报了耕地面积以亩计算为核实这些上报数据采用按比例分配的分层随机抽样方法在每一种类型中抽取若干村进行实测核实倘若以x表示上报数据以y表示实测数据抽样结果如下表
第五章 §1
一、问题的提出
比估计与回归估计 概述
前面讨论的简单随机抽样和分层抽样,我们所关心的参 数都是单指标的,给出的估计量也是线性形式。这一章我们 将要讨论比较复杂的情况,我们关心的参数不再是单指标的 而是两个或两个以上的指标。此时,遇到的统计量不再是线 性形式,往往呈现出非线性形式,比如两个变量之比,或呈 现变量之间的回归关系。 所谓回归关系就是变量之间的关系不是确定的,是带有 随机影响的。比如身高和体重的关系,身高增加时,一般来 说,体重也会增加,但又不能说一定如此。要确定身高和体
抽样调查——比估计

一个国家或地区的恩格 尔系数R
城乡居民家庭人均收入及恩格尔系数
年份 城镇居民家庭人均 可支配收入(元) 农村居民家庭人 均纯收入(元) 城镇居民家庭恩 格尔系数 (%) 农村居民家庭恩 格尔系数(%)
1978
343.4
133.6
57.5
67.7
3.比估计与简单估计的比较
(1)当n足够大时,Y 的比估计y R的方差为: 1 f 2 2 V ( yR ) (S y 2 RS x S y R 2 S x ) n 1 f 2 (2)Y 的简单估计y的方差为:V ( y ) Sy n
(1) (2)得: V ( y) V ( yR ) 1 f 1 f 2 2 2 Sy (S y 2 RS x S y R 2 S x ) n n
S d2 2 2 n S 解得:n X V2 0 ,其中n0 2d n0 Sd X V 1 1 N NX 2V
2 Sd 可以通过以往的资料估 计,
也可以通过试点调查时 抽一个容量为 n, 的样本, 1 n 2 ˆ 由s ( y R x ) i i n 1 i 1
i 1 2
10
y
i 1
i
4463 , xi 4066 , yi xi 4245
2
10
10
ˆ R
y x
i 1 i 1 10
10
i 1
i 1
i
187 1.05 178
i
2 2 2 ˆ ˆ ˆ ( y R x ) y 2 R y x R x i i i i i i 31.265 2 i 1 i 1 i 1 i 1
chap5比估计与回归估计-18页文档资料

Chap5比估计与回归估计教学要求: 重难点: 引语:(请学生回顾)前面介绍过的目标量有四个类型:总体均值、总体总量、总体比例、两个指标的总数或均值的比值R,在简单随机抽样和分层抽样中讨论的目标都是前三类,且它们本质上是一类,相互之间可类推。
本章讨论第四类目标量比值R的估计,这是第一个问题。
比如服装消费支出占总支出的比值,在校儿童对全体儿童的比重。
其次前面所用的估计量是简单估计,它只涉及所估计的指标本身。
如果有另一个与Y关系密切(比例关系或线性回归关系)的指标X可作为辅助变量,来构造另一类估计量,即比估计量或回归估计量,来提高估计精度,这是第二问题。
如调查每月每户平均消费,消费通常与每户人口数密切相关,可用每户人口数作为辅助变量,先估计每月每户平均消费与每户人口数的比值R,然后利用已知的每户平均人口,就可得到每月每户平均消费的估计值。
由于这两个问题之间存在密切的内在关系,因此放在这一章节一起讨论。
5.1比估计1. 基本概念考虑到有两个指标量Y和X,不妨将总体记为⎭⎬⎫⎩⎨⎧N N X X X Y Y Y ,...,, ,... 2,12,1,对应样本为⎭⎬⎫⎩⎨⎧n n x x x y y y ,...,,...,2,12,1,如果要估计的是总体比值X YXY R ==,则总体比值R可用样本的比值 xyR ∆=ˆ进行估计,该估计量称为比值估计量.当调查指标仅为Y,X为辅助变量时,在∑==Ni iXX 1或NXX Ni i∑==1已知时,Y 和Y可用X R y R ˆ∆= X R N y N Y RR ˆˆ==∆分别进行估计,称为比(比率)估计量.这三者通称为比估计量,它们之间只相差一个常数,相互之间可推导,研究时只选择一个即可.2. 性质我们知道简单估计量是无偏估计,其均值误差等于其方差.但对于比估计量却不具有无偏性,而是渐近无偏.其均值误差与方差有差异,但偏倚不大.可证:对于简单随机抽样,当n 很大时,R RE ≈)ˆ( 1)(1)ˆ()ˆ(122--⋅-≈≈∑=N RX YXn fR V RMSE Ni i i简要证明: xxR y R x y R R-=-=-ˆ 当n 很大时,x X ≈,代入上式分母中,有[]0)(1)()(1)()ˆ(=-=-=-≈-X R Y Xx RE y E X X x R y E R RE 所以,当n 很大时R RE ≈)ˆ(.此时 222()ˆˆˆ()()()E y Rx V R MSE R E R R X -≈=-≈对每个总体单元,令),...,2,1(N i RX Y G i i i =-=,对每个样本单元有),...,2,1(n i Rx y g i i i =-=,则其总体均值和样本均值分别为0=-=X R Y G x R y g -=因而 ==-22)()(g E x R y E )()()(2g V g E g V =+=21G S nf -1)(112---=∑=N G Gn fNi i1)(112---=∑=N RX YnfNi i i所以,当n 很大时 1)(1)ˆ()ˆ(122--⋅-≈≈∑=N RX YX n fR V RMSE Ni i i此方差的估计量可采用1)ˆ(1)ˆ(1221--⋅-≈∑=n x R yXn fRv ni ii或 1)ˆ(1)ˆ(1222--⋅-≈∑=n x R yxn fRv ni ii说明:这两个方差估计量很难比较谁优谁劣,对不同总体有不同结论。
第五章 比估计与回归估计抽样理论与方法河南财政学院.ppt

利用辅助变量的信息改进估计的精度
R Y Y , XX
因 此Y RX,Y RX
Y及Y的 比 估 计 量 :YˆR Rˆ X , X已 知 YˆR Rˆ X , X已 知
河南财经学院
比估计的使用条件: (1)调查变量与辅助变量间有正线性相关关系,
且大致呈正比例; (如果辅助变量与调查变量间有负线性相关关 系,则要采取乘积估计。) (2)估计 Y 或Y时 ,一般要求辅助变量的总 体总量或均值是已知的。 (3)适用面广,可以用于简单随机抽样,也可用 于分层随机抽样、整群抽样、多阶抽样等;
要估计会购买的人中,能承受的最高价格在4 ~ 5元者所占的比例, 可 设 总 体 有N人 ,
1, 第i人 会 购 买 奶 酪
xi
0, 其 他
1,第i人会购买且能承受的最高价格范围是4 ~ 5元
yi 0,其他
N
因此,要估计的是R
Yi
i 1 N
Xi
Y
X
河南财经学院
i 1
n
v(1 Rˆ )
1 nx
f
2
(yi Rˆ xi)2
i 1
n1
1 nx
f
2
(sy2
2Rˆ sxy
Rˆ 2sx 2 )
河南财经学院
例:某小区有1920户,从中随机抽取了70户, 调查各户的住房面积(单位:平方米)和家 庭人口,得数据:
70
70
yi 1821.4, xi 260
( yi Rˆ xi )2 yi2 2Rˆ yi xi Rˆ 2 xi 2 5637 .92
i 1
05比估计与回归估计

yr
Variable ybar yr
N 2000 2000
Mean 309409 309817
Median 308093 309806
StDev 28889 2664
SE Mean 646 60
Variable ybar yr
Minimum 228803 301659
Maximum 420038 320089
ˆ 因R的分布有偏,可通过 来构造R的置信区间。 d d y Rx . d y Rx ~ N (0, 1) 1 f 2 1 f 2 S y R 2 S x2 2 RSyx Sd n n P ( u1 / 2 w u1 / 2 ) 1 w 解不等式 u1 / 2 w u1 / 2 便可得R的置信度近似为 的置信区间。 1
ˆ -R y -R y-Rx R x x xX ˆ R ) 1 [ E ( y ) RE ( x )] 0 E(R X ˆ ) MSE ( R) E ( R R) 2 1 E ( y Rx ) 2 ˆ ˆ V (R X2 1 f 2 2 E ( y Rx ) S n
C8
例. 美国农业普查的资料
总体:3044个县(去掉了数据缺失的34个县) yi=第i个县1992年全部农场的面积(英亩); xi=第i个县1987年全部农场的面积。
Y 943336889 R 0.980404 X 962192213
从中抽取n=200的SRS,则 布如上图所示。
ˆ R y / x 的抽样分
R R
ˆ 根据上节Th5.1.1中 R 的期望、均值来证明
3. 比估计量优于简单估计的条件
Th 5.2.2 对于SRS,在 n 较大时,若 C x (2C y ) ˆ 则 V (YR ) V ( y )。其中 C x S x X 为变量 x 的总体 变异系数,C y S y Y 为变量 y 的总体变异系数。
比率估计和回归估计

Ratio and Regression Estimator引例:1802年,拉普拉斯想要估计法国的人口数目。
他获得了一个遍布全国范围的30个社区(commune )的样本,截至1802年9月23日总共有2037615居民。
在包括1802年9月23日以前的三年中,215599个新生儿在30个commune 。
拉普拉斯认为30个commune 的每年注册的新生儿数为215599/3=71866.33。
把2037615按照71866.33 来分,拉普拉斯估计每年每28.35人里有一个注册新生儿。
具有众多人口的乡镇也就可能有同样众多的注册新生儿,通过用28.35乘以全法国年度新生儿总数来估计得出法国人口总数。
调查中都有辅助信息,抽样框也通常有每个单元额外的信息,这些信息能被用来提高我们的估计精度。
一、为什么要使用比率估计/回归估计利用总体的辅助信息提高估计的精度。
辅助指标的选择:第一,辅助指标应该与调查指标有较好的正的相关关系。
第二,x y的抽样分布较ux y 的抽样分布变动性要小得多。
第三,辅助指标的总体总量或总体均值已知。
比率估计、回归估计需要有足够的样本量才能保证估计的有效。
有偏估计:当样本量足够大时,估计的偏倚趋于0。
简单地想要估计一个比率:假定总体由面积不同农业用地构成,i y i =地谷物的产量,i x i =地的面积,B=每亩谷物的平均产量。
想要估计一个总体总数,但总体大小N 是未知的。
但是我们知道,于是可以通过y N t y =ˆ来估计N,由此我们可以使用不同于总数N 的方法而是采用辅助变量来进行测量。
要估计渔网中长度长于12cm 的鱼的总数,抽取一个鱼的随机样本,估计长度长于12cm 的鱼所占的比例,用鱼的总数N 乘以这个比例即可得到,但如果N 未知不能使用。
能称量渔网中鱼的总重量。
鱼的长度与其重量相关。
xt yt x yr =ˆ调整来自样本的估计量以便它们反映人口统计学的总量。
在一所具有4000名学生的大学提取一个400个学生的简单随机样本,此样本可能包含240个女性,160个男性,且其中被抽中的84名女性和40名男性计划以教学为毕业后的职业。
第五章比估计与回归估计

n 1
为V (Yˆlr ) 的无偏估计量
1 f n
(s
2 y
B
2
s
2 x
2Bsyx)
当
N
B
( yi
i 1
Y )( xi
X)
S yx
S y
N
(xi X )2
S
2 x
Sx
i 1
时,Yˆlr 的方差达到极小,且
Vm in
(Yˆlr
)
1
n
f
S
2 y
第三节 回归估计的一般形式
• 一、回归估计概述 • 回归估计就是根据样本各单元调查变量与辅助变量间的关系构造回归方程,并
据回归系数对总体有关参数进行估计。 • 如果在回归估计中只有一个辅助变量,则所进行的估计称为一元回归估计,若
同时采用多个辅助变量综合进行估计,则称为多元回归估计。多元回归估计比 一元回归估计效果更好,但更复杂。这里只介绍一元回归中的线性回归估计。 • 回归估计的主要特点有: • 同比估计一样,回归估计充分利用了有关的辅助变量资料以有效地提高估计的 精度;回归估计中要求辅助变量的总体均值或总和事先已知;回归估计一般只 适用于有限总体,因为只有有限总体才可能计算出辅助变量的总体均值和总和; 回归估计量一般优于比估计量和简单估计量。特别地当回归系数等于总体比率 (即总体回归直线通过原点)时,回归估计量与比估计量的效果相同,当调查变量 与辅助变量间的相关系数ρ=0时,回归估计与简单估计的效果相同。 • 但是,回归估计量的优越性只有在大样本的情形下才能得到较好的发挥,而在 小样本时,它的性质就不大好,因而使用回归估计量,样本量一定要大,一般 情况n≥30时,回归估计量较比估计量和简单估计量有较优的估计效果,但它的 意义不如后两法简单明了,计算方法也较为复杂,特别是多元线性回归估计或 非线性回归估计时更是如此。不过随着电子计算机的广泛应用,再复杂的计算 也可通过计算机进行。 • 回归估计中辅助变量可以是一个,也可以是两个或多个;辅助变量应与调查变 量存在一定的联系(不一定是密切关系)。
第五章比率估计与回归估计

17
三、 β 取样本回归系数情形
若β 需根据样本确定,一个合理的选择是取β 为样 本回归系数
n
b
此时 Y 的回归估计量
s yx
2 sx
( y y)( x x)
i 1 i i
( xi x) 2
i 1
n
y lr y b( x X )
为一复杂估计量,不再具有无偏性。
18
四、回归估计与比率估计及简单估计的大样本比较
对于大的样本量,总有
V ( y lr ) V ( y )
这就是说在大样本下回归估计总是优于简单估计,仅在ρ =0时两 者效果相同。
V ( y lr ) V ( y R ) 的充分必要条件为
2 2 2 SY (1 2 ) S Y +R 2 S X 2R SY S X
3
第二节
比率估计
ˆ y y 为样 R x x
一、比率估计量 设对有两个调查变量Y 和X 的总体进行简单随机抽样 ,分别以y, x表示样本总值 ,以 本比率 ,用
y, x 表示样本均值,以
ˆ 作为总体比率R的估计称为的比率估计 。 R
比率估计量除了使用调查变量样本信息外,还要使用辅助变量 总体信息与样本信息,而且是非线性估计量。这类估计量称为复杂 估计量。由于比率估计量使用的信息比简单估计量多,因而有可能 比简单估计量有更高的精度。同时由于比率估计量是非线性估计量, 因而对其性质的研究比对简单估计量要复杂得多。
i 1 i i
12
ˆ ˆ YR = R X = 18459 ×86436=97573.52(万元) 16352
ˆ N (1 f ) ( yi Rxi ) 2 ˆ v(YR ) i 1 n n 1
第五章-比率与回归估计

大致成正比例关系时,应用比率估计量才能使
估计精度有较大改进.
若分别以SY2
,
S
2 X
表示两个变量的总体方差,
以SYX表示总体协方差, 表示总体相关系数
SY2
1 N-1
(Yi Y )2
S
2 X
1 N-1
(Xi X )2
SYX
1 N-1
(Yi Y )( Xi X )
SYX
SY SX
X 或总体总值X已知,可以利用辅助变量构造
调查变量总体均值,总体总值Y的比率估计量为:
-
Y
yR
RX
y x
X,
YR
RX
y x
X
N
yR
比率估计量 R, yR ,Y R 中任何两个之间都仅差一个
常数,性质相同.
二、比率估计量的偏差与均方误差
比率估计量是有偏的,但当样本量增大时其偏 差将趋近于零。
下表是容量为5的总体,列出了两个变量的值, 计算全部可能的n=3的简单随机样本指标。
y
13.7967,
x1
24.43899,
x2
38.4444,
s
2 y
35.4958,
s2 x1
74.6789,
s2 x2
174.9671, syx1
42.26167, syx2
46.5118
1 f 0.0522332,现种植面积和良种比例为辅助变量对 n
皮棉产量进行比率估计。
六、乘积估计
当辅助变量x与调查变量y成负相关关系时, 不能用比例估计,应改用乘积估计,
设 yRk 是Y 的基于第k个辅助变量的比率估计,
则Y 的多元比率估计量为
Chap5比估计与回归估计.ppt

,
【例1】P130例5.3
交通运输统计中有三个重要的指标,即运量、
周转量与平均运距,其中平均运距是总周转量 除以运量所得的商。为估计公路载货汽车的平
均运距,在总体中用简单随机抽样抽取32辆货
车,记录每辆车在一个月内的运量xi (单位:吨)
与周转量yi (单位:吨公里),如表所示,试估计
主要内容: 5.1比估计 5.2回归估计 5.3分层比估计与回归估计
5.1比估计
1.基本概念
Y1, Y2 ,... , YN 将总体记为 ,对应样本为 X X ,..., X N 1, 2
Y Y 总体比值 R X X
y1, y2 ,..., yn x1, x2 ,..., xn
2 E ( y Rx ) ˆ ) MSE(R ˆ ) E( R ˆ R) V (R 时 X2
N
2
对每个总体单元,令 Gi Yi RX i (i 1,2,...,N ) 对每个样本单元有 g i yi Rxi (i 1,2,...,n) ,则其总体均值 和样本均值分别为
N N 1 f 1 N 2 2 2 ( Y Y ) 2 R ( Y Y )( X X ) R ( X X ) i i i i n N 1 i 1 i 1 i 1
比估计优于简单估计的条件是
1 f 2 2 1 f 2 2 2 SY 2 RS XY R 2 S X S 2 R S S R SX Y X Y n n
其中β可以是:(1)事先设定的常数;
ˆ Ny Y lr lr
(2)从样本中计算得到的某一特定统计量,如样本回归系数。 几种特殊情况: 当 1时的回归估计量称为差估计量:yd 当 0 时, ylr y ,即为简单估计量。
比估计与回归估计

1.962 7.4444 n0 504 2 500 2 d ( ) 2100 n0 504 n 406 n0 504 1 1 2100 N
1 / 2 2 S d2
4.比估计与简单估计的比较:
(1)当n足够大时,Y 的比估计y R的方差为: 1 f 2 2 V ( yR ) ( S y 2 RS x S y R 2 S x ) n 1 f 2 (2)Y 的简单估计y的方差为:V ( y ) Sy n ( ) 2)得: 1 ( 1 f 2 1 f 2 2 V ( y ) V ( yR ) Sy ( S y 2 RS x S y R 2 S x ) n n 1 f 2 (2 RS x S y R 2 S x )〉 0 n RS S /X C 〉 x x x 2S y 2S y / Y 2C y 1 特别若C x C y,则〉 ,即比估计较相应的简 单估计更精确。 2
i 1 n
n 1
1 f 2 ˆ ˆ 2 ( s y 2 Rs xy R 2 s x ) nx 2
例:某小区有1920户,从中随机抽取了70户,调查各户的住房面积 (单位:平方米)和家庭人口,得数据:
y
i 1 70
70
i
1821 4, xi 260 .
i 1 2
例:审计员想把一个医院的财产的现在价值与记录价值作一比较。 从计算机存储的记录里查到,医院的财产有2100项,共计价值 950000元。为了估计现在的价值,拟在2100项目中随机抽取n项。 因为没有信息可用来确定n,先随机抽了15项,获得数据整理如下:
xi 242.0, xi 4706.54
R
ˆ ˆ ˆ YR RX NRX
Chap5 比估计与回归估计 (2)

主要内容: 5.1比估计 5.2回归估计 5.3分层比估计与回归估计
ˆ ˆ s(Ylr ) v(Ylr ) 11549461 339.8450 .
s xy
7052316 . 109.19455 1.076417 ( 100.96622 111.01109 ) 687
作为比较,Y的简单估计量为
2 ˆ ) N 2 v( y) N (1 f ) s 2 v(Y y
均运距,在总体中用简单随机抽样抽取32辆货
车,记录每辆车在一个月内的运量xi (单位:吨)
与周转量yi (单位:吨公里),如表所示,试估计
平均运距R并给它的90%的置信区间。
解: y
i 1
32
i
295500
i
x
i 1
32
i
5974
x
y
y
i 1
32
x
i 1
32
i
32
9234 375 .
近似为理论上的最小值,即 1 f 2 MSE ( y lr ) V ( y lr ) S Y (1 2 ) n 2 2 SY (1 ) 可用下式进行估计: 1 n n 1 2 2 2 se ( yi y ) b( xi x ) n 2 (s y bsxy ) n 2 i 1 V ( ylr ) 的一个近似估计式为 1 f
1 f 2 SY (1 2 ) n
比估计和回归估计(抽样)

(2)若调查指标为Y , X为辅助变量 X X i 或X X / N已知。 则Y 及Y的比(比率)估计量分别定义为: y ˆX YR y R X R x y ˆ ˆX R ˆX Y R X Ny R NR x ˆ ˆ ˆ 通称为比估计量。 我们将R、Y 、Y
2. 比估计与回归估计的使用 条件 • (1)调查主要指标与辅助变量 之间有良好的线性正相关关系 • (2)辅助变量的总体总量或均 值已知。
第二节 比估计
• 一、定义及基本性质 • (一)定义 • 1.比估计,也叫比估计量,是指以 下三个估计量。
( 1 )对简单随机抽样,若y、x 是样 本两个指标的均值,则总体这两个 指标总量或均值的比值(率)为: Y Y R 可以用: X X y ˆ ˆ 是比值估计量。 R 进行估计。R x
样本号j
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
样本包含单元号 1, 2, 3, 4 1, 2, 3, 5 1, 2, 3, 6 1, 2, 4, 5 1, 2, 4, 6 1, 2, 5, 6 1, 3, 4, 5 1, 3, 4, 6 1, 3, 5, 6 1, 4, 5, 6 2, 3, 4, 5 2, 3, 4, 6 2, 3, 5, 6 2, 4, 5, 6 3, 4, 5, 6
2 (S y R 2 S x2 2 RS yx ) 2 (S y R 2 S x2 2 RS x S y )
Y (C C 2C yx )
2 2 y 2 x
1 f 2 (C y C x2 2C yx ). n
ˆ ) N 2 X 2V ( R ˆ ) MSE (Y ˆ ) V (Y R R N (1 f ) 2 2 2 ( S y R S x 2 RS yx ) n N 2 (1 f ) 2 ( S y R 2 S x2 2 RS x S y ) n 1 f 2 2 Y (C y C x2 2C yx ) n ˆ ) 1 f V (Y 2 2 R ( C C y x 2C yx ). 2 n Y
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0
二、β 为设定常数情形
设 0是设定常数,取β = 0 ,则回归估计量
ylr y 0 ( X x) y 0 ( x X )
1-f 1 N 是 Y 的无偏估计量。 其方差为 V ( y lr ) [Yi 0 ( X i X ) Y ]2 n N 1 i 1
ˆ =7.33 R
及
y
i 1
2 i
=28224,
x
i 1
33
2 i
=533,
y x =3595.5 代入得
i 1 i i
33
ˆ ) =0.285156, v2 (R
1- =0.95,
u
2
ˆ )= se ( R
2
ˆ ) =0.534 v( R
ˆ -u =1.96,[ R
2
ˆ )]=[6.28,8.38] se ( Rˆ ), Rˆ + u se ( R
故该地区人均每天食品支出 7.33 元,区间估计为[6.28,8.38]元。
8
案例二
某系统有 56 个企业,去年全系统总产值 86436 万元。为估计今年总产值, 当年年底在所辖全部企业中随机抽取 12 个企业进行调查得如下资料,其中 xi ,
18
四、回归估计与比率估计及简单估计的大样本比较
对于大的样本量,总有
V ( ylr ) V ( y)
这就是说在大样本下回归估计总是优于简单估计,仅在ρ =0时两 者效果相同。
V ( ylr ) V ( y R )的充分必要条件为
2 2 2 SY (1 2 ) S Y +R2 S X 2R SY S X
y i 分别为去年和当年产值。
表 5-3 企业
1 2 3 4 5
12 个企业两年产值
6 7 8 9 10 11 12
xi
764 1642 957 1324 853 1835 1028 1512
2131 1176 1618 1532 834 2286 1354 1826 1721 958
Байду номын сангаас
1432 1728 1214 1648 1904 1534
4
二、比率估计量的偏倚与均方误差
比率估计量是有偏估计量,但当样本量增大时其偏倚 将趋于零 。 ˆ , y ,Y ˆ 分别为 R, Y , Y 的近似无 理论上可以证明,R R R 偏估计量,而且对于比率估计量,其方差主要取决于 Yi 与 RX i 之间的差异,当 Yi RX i 时,估计量方差将很小。 换言之,比率估计量将有很高的精度。这告诉我们,只 有当两个变量大致成正比例关系时,应用比率 估计量才能使估计精度有较大改进。
907.2 = 123
7.33
i
≈0,
n
ˆ ) = 1 2f v2 (R
nx
ˆ )2 ( yi Rx i
i 1
n
=
n 1
33
(n 1)( xi ) 2
i 1
n
ˆ ( y R
i 1 2 i
n
2
x
i 1
n
2 i
ˆ y x ) 2R i i
i 1
n
将 n=33,
ˆ wY ˆ ˆ Y MR 1 R1 w2Y R 2 ==4248.98
2 2 ˆ ) N (v11v22 v12 ) =33014.94 v(Y MR v11 v22 2v12
ˆ ) =181.20 se(Y MR
由此可见,二元比率估计比两个一元比率估计精度都高,这是由于它使用了更多的正相关 性辅助信息的缘故。
x2 38.4444
2 sx 174.9671 2
syx1 =42.26167 ,
syx2 =46.5118 ,
1-f 0.0522332 n
现利用种植面积和良种比例为辅助变量对皮棉产量进行 比率估计。
13
解答过程
先考虑一元比率估计。
ˆ R ˆ X 13.7967 ×7450=4205.80 Y R1 1 1 24.43899
2 ˆ ) N (1 f ) ( s 2 R ˆ 2 s 2 2R ˆ s ) =56158.11 v(Y R1 y 1 x1 1 yx1 n
ˆ ) =236.98 se(Y R1
ˆ R ˆ X R ˆ N X 2 13.7967 ×301×40.10=4331.63 Y R2 2 2 2 38.4444
3
第二节
比率估计
ˆ y y 为样 R x x
一、比率估计量 设对有两个调查变量Y 和X 的总体进行简单随机抽样 ,分别以y, x表示样本总值 ,以 本比率 ,用
y , x表示样本均值,以
ˆ 作为总体比率 R的估计称为的比率估计 。 R
比率估计量除了使用调查变量样本信息外,还要使用辅助变量 总体信息与样本信息,而且是非线性估计量。这类估计量称为复杂 估计量。由于比率估计量使用的信息比简单估计量多,因而有可能 比简单估计量有更高的精度。同时由于比率估计量是非线性估计量, 因而对其性质的研究比对简单估计量要复杂得多。
这等价于
( B R) 2 (
SYX SY 2 2 R ) ( R ) 2 SX SX
因此除非Y 关于X 的总体回归系数B=R,否则回归估计总是优于
比率估计,仅在B=R时两者效果相同。
19
案例四
某地区有规模以下工业企业 127 个, 共有固定资产价值 6794.5 万元,从中随机抽取 20 个企业调查工业产值及固定资产价值,资料 如表 5-4 所示。试估计该地区规模以下工业总产值及其标准差。 表 5-4
i
棉种植面积 x 和良种比例 x 。该地区皮棉种植总面积为 X =
1i 2i 1
7450 公顷,采用良种的平均比例为 X =40.10(%) 。对调查
2
数据经过计算得如下结果:
y 13.7967,
2 sy 35.4858 ,
x1 24.43899,
2 sx 74.6789187 , 1
Vmin y MR
w
k 1
p
k
1。
w2 V11 V12 V11 V 22 2V12
V22 V12 w1 V11 V22 2V12
2 V11V22 V12 V11 V22 2V12
12
案例三
为精确地估计某地区皮棉总产量,在该地区 301 个村庄中 简单随机抽取 18 个村庄,在调查皮棉产量 y 的同时记录了皮
5
三、 比率估计量方差的估计与置信区间
对于一般的n,比率估计量呈右偏分布,只有
当n>30,
Cx<0.1, Cy <0.1这些条件同时满足时才
能直接用正态分布构造置信区间。R的置信区间为
ˆ[ u se( R ˆ ), R ˆ u se( R ˆ )] ] [R
2 2
其中 u 是标准正态分布的上α /2分位点,0<α <
SYX B时 2 SX V ( ylr ) 达最小值
当 0
1-f 1 N 2 [( Y Y ) ( X - X )] i 0 i n N 1 i 1 1-f 2 2 ( SY 02 S X 2 0 SYX ) n
2 1 f 2 SYX 1 f 2 Vmin ( ylr ) (SY 2 ) SY (1 2 ) n SX n
17
三、 β 取样本回归系数情形
若β 需根据样本确定,一个合理的选择是取β 为样 本回归系数
n
b
此时 Y 的回归估计量
s yx
2 sx
( y y)( x x)
i 1 i i 2 ( x x ) i i 1 n
ylr y b( x X )
为一复杂估计量,不再具有无偏性。
2 ˆ ) N (1 f ) ( s 2 R ˆ 2 s 2 2R ˆ s ) =126844.51 v(Y R2 y 2 x2 2 yx2 n
ˆ ) =356.15 se(Y R2
再考虑二元比率估计。
w1 v22 v12 =0.6568, v11 v22 2v12
w2 =1- w1 =0.3432
yi
试估计今年总产值,并给出标准差的估计。
9
解答过程
以去年产值变量为辅助变量构造比率估计量计算可得
x =24043730 , x =1362.67, x =16352, i 1
12 i 1 i
12
2 i
y =18459,
i 1 i
12
y
i 1
12
2 i
=30405031 ,
y =1538.25,
2
1。类似可得
Y 、Y的置信区间。
6
案例一
在某地区抽取由 33 个住户组成的简单随机样本, 对每户调查两个指标:
xi ——第 i 户人口数,
yi ——第 i 户一天用于食品支出的费用,
经计算得
xi
i 1
33
=123
2 i
y
i 1
33
i
=907.2
x
i 1
33
2 i
=533
y
i 1
2 i
12
12 i 1 i i
12
ˆ se ( Y
R
)=953.87
10
四、 比率估计量优于简单估计量的条件
定量分析计算表明,并非任何情况下比率估计量都优于简单估计量,
只有当调查变量与辅助变量有较高的正相关性时比率估计量才能使估计 精度有较大提高。若