第五章比率估计与回归估计
第五章比率估计与回归估计
理论上可以证明,R?, yR ,Y?R 分别为 R,Y ,Y 的近似无
偏估计量,而且对于比率估计量,其方差主要取决于 Yi 与 RX i 之间的差异,当 Yi ? RX i 时,估计量方差将很小。 换言之,比率估计量将有很高的精度。这告诉我们,只 有当两个变量大致成正比例关系时,应用比率 估计量才能使估计精度有较大改进。
5
? 三、 比率估计量方差的估计与置信区间
对于一般的n,比率估计量呈右偏分布,只有
当n>30,
C
<0.1,
x
C
y
<0.1这些条件同时满足时才
能直接用正态分布构造置信区间。 R 的置信区间为
[
]
[ R? ? u? se(R?), R? ? u? se(R?)]
2
2
其中 u? 是标准正态分布的上α /2分位点,0<α <
? 基于这种考虑利用已知的辅助变量信息构造比率估计量就 可使估计精度加以改进。
3
第二节 比率估计
?
一、比率估计量
设对有两个调查变量Y 和X 的总体进行简单随机抽样 ,分别以y,
x表示样本总值 ,以
y , x表示样本均值,以 R? ? y ? y 为样 xx
本比率 ,用 作R? 为总体比率R的估计称为的比率估计 。
精度有较大提高。若
CY
≈
C
,则只需当ρ
2
第一节 问题的提出
? 在许多实际问题中常常涉及两个调查变量(指标) Y 和X 。 对于包含个抽样单元的总体除了对总体信息进行估计外,常 常要估计总体比率R。总体比率在形式上总是表现为两个变 量总值或均值之比。 在涉及两个变量的抽样调查中,有两种情况需要应用比率 估计量。一种情况是利用双变量样本对总体比率进行估计需 应用比率估计量,此时两个变量均为调查变量。另一种情况 是一个变量为调查变量,另一个变量表现为与调查变量有密 切关系的辅助变量,在对调查变量总体总值、总体均值等目 标量进行估计时,利用已知的辅助变量信息构造比率估计量 可以改进估计的精度。
05第五章 比估计与回归估计
证明:
1 f 1 N V ( R) [ (Yi RX i ) 2 ] 2 nX N 1 i 1
N 1 f 1 2 { [ ( Y Y ) R ( X X )] } i i 2 nX N 1 i 1
N N N 1 f 1 2 2 2 { [ (Yi Y ) R ( X i X ) 2 R (Yi Y )( X i X )]} 2 nX N 1 i 1 i 1 i 1
ˆ Y RS
L yh ˆ X h Y Rh(X 已知) h x h h h L
ˆ 为Y 在分层随机抽样中,若每层的样本量 nh 都较大,则 Y RS 的近似无偏估计。其方差为:
ˆ ) N 2 (1 f h ) ( S 2 R 2 S 2 2 R S S ) V (Y RS h yh h xh h h yh xh nh h
1 f ˆ V ( R) 2 nX
(y
i 1
N
i
Rxi ) 2
N 1
1 f 2 2 2 ( S R S y x 2 RS yx ) 2 nX
1 f 2 2 2 ( S R S y x 2 RS y S x ) 2 nX
比率估计的近似方差的证明 ˆ R y R y Rx R x x ˆ R y Rx 当 n 足够大时,x X 将其代入上式分母,得 R X 于是 ˆ R) 1 [ E ( y ) R E ( x )] 1 (Y RX ) 0 E(R X X ˆ ) R。这时 V ( R ˆ ) E(R ˆ R ) 2 1 E ( y Rx ) 2 因此,当 n 足够大时, E( R 2
第五章 比估计与回归估计(抽样理论与方法,河南财政学院)
ˆ) d 1 / 2 V(Y R
1 / 2 2 S d2 2 2 2 n d 0 1 / 2 S d 解得:n ,其中 n 0 2 d2 1 / 2 S d2 1 n0 1 N Nd 2
河南财经学院
例:某公司有1000名职工,为了估计职工今年与去年病假工时的比 率,要抽一个容量为n的简单随机样本进行调查。先随机抽了10人 作试点调查,数据如下: 编号 1 2 去年病假工时 12 24 今年病假工时 13 25
N
2 ( Y RX ) i i i 1
N
N 1
1 f n
N
2 ( Y RX ) 0 i i i 1
N 1
ˆ y 对于简单随机抽样, Y 的简单估计为 Y 1 f ˆ V (Y ) n 河南财经学院
2 ( Y Y ) i i 1
N 1
1 f 2 (2 RS x S y R 2 S x )〉 0 n
RS x Sx / X Cx 〉 2 S y 2 S y / Y 2C y 1 特别若C x C y,则〉 ,即比估计较相应的简 单估计更精确。 2
河南财经学院
4.估计R时样本量的确定:
ˆ 的方差上限为V , 如果R
2 2 i 1 i 1 i 1
10
10
10
2
xi 31.265
2 i 1
70
1 10 ˆ x ) 2 3.474 s d ( yi R i 9 i 1 16300 已知X 16300 , X 16 .3 1000 d2 0.012 5 V 2 . 603 10 1 / 2 1.96 2
xi 242 .0, xi 4706 .54
chap 比估计与回归估计
Chap5比估计与回归估计教学要求:重难点:引语:(请学生回顾)前面介绍过的目标量有四个类型:总体均值、总体总量、总体比例、两个指标的总数或均值的比值R,在简单随机抽样和分层抽样中讨论的目标都是前三类,且它们本质上是一类,相互之间可类推。
本章讨论第四类目标量比值R的估计,这是第一个问题。
比如服装消费支出占总支出的比值,在校儿童对全体儿童的比重。
其次前面所用的估计量是简单估计,它只涉及所估计的指标本身。
如果有另一个与Y关系密切(比例关系或线性回归关系)的指标X可作为辅助变量,来构造另一类估计量,即比估计量或回归估计量,来提高估计精度,这是第二问题。
如调查每月每户平均消费,消费通常与每户人口数密切相关,可用每户人口数作为辅助变量,先估计每月每户平均消费与每户人口数的比值R,然后利用已知的每户平均人口,就可得到每月每户平均消费的估计值。
由于这两个问题之间存在密切的内在关系,因此放在这一章节一起讨论。
5.1比估计1. 基本概念考虑到有两个指标量Y和X,不妨将总体记为⎭⎬⎫⎩⎨⎧N N X X X Y Y Y ,...,, ,... 2,12,1,对应样本为⎭⎬⎫⎩⎨⎧n n x x x y y y ,...,,...,2,12,1,如果要估计的是总体比值X YXY R ==,则总体比值R可用样本的比值 xyR ∆=ˆ进行估计,该估计量称为比值估计量.当调查指标仅为Y,X为辅助变量时,在∑==Ni iXX 1或NXX Ni i∑==1已知时,Y 和Y可用X R y R ˆ∆= X R N y N Y RR ˆˆ==∆分别进行估计,称为比(比率)估计量.这三者通称为比估计量,它们之间只相差一个常数,相互之间可推导,研究时只选择一个即可.2. 性质我们知道简单估计量是无偏估计,其均值误差等于其方差.但对于比估计量却不具有无偏性,而是渐近无偏.其均值误差与方差有差异,但偏倚不大.可证:对于简单随机抽样,当n 很大时,R RE ≈)ˆ( 1)(1)ˆ()ˆ(122--⋅-≈≈∑=N RX YX n fR V R MSE Ni i i简要证明: xx R y R x y R R-=-=-ˆ 当n 很大时,x X ≈,代入上式分母中,有[]0)(1)()(1)()ˆ(=-=-=-≈-X R Y Xx RE y E X X x R y E R RE 所以,当n 很大时R RE ≈)ˆ(.此时 222()ˆˆˆ()()()E y Rx V R MSE R E R R X-≈=-≈ 对每个总体单元,令),...,2,1(N i RX Y G i i i =-=,对每个样本单元有),...,2,1(n i Rx y g i i i =-=,则其总体均值和样本均值分别为0=-=X R Y G x R y g -=因而 ==-22)()(g E x R y E )()()(2g V g E g V =+=21G S nf -1)(112---=∑=N G G n fNi i 1)(112---=∑=N RX Y nfNi i i所以,当n 很大时 1)(1)ˆ()ˆ(122--⋅-≈≈∑=N RX YXn fR V RMSE Ni i i此方差的估计量可采用1)ˆ(1)ˆ(1221--⋅-≈∑=n x R yXn fRv ni ii或 1)ˆ(1)ˆ(1222--⋅-≈∑=n x R yx n fRv ni ii说明:这两个方差估计量很难比较谁优谁劣,对不同总体有不同结论。
《抽样技术》第五章-回归估计量
从而
Vmin ylrs Wh2Vmin ylrh
h 1 L
L
W 1 f h 2 2 S yh 1 h nh h 1
其中
h 1
L Wh2 1 f h 2 ah S xh , Bc ah Bh nh h 1 L
பைடு நூலகம்
L
2
a
h 1
h
这一结果表明,除非各层的Bh相同,否则最佳选取 的分别估计量比组合估计量有更小的方差。当然, 2 要事先知道 Syxh和S xh 才能作出这些最佳的选择。
§5.7 从样本估计回归系数
§5.4 方差的样本估计
V ylr 的一个大样本估计量
n 1 f 2 2 s ylr yi y b xi x n n 2 i 1 2 n yi y xi x n 1 f 2 i 1 yi y n 2 n n 2 i 1 xi x i 1
经典的线性回归的理论的一些标准结果对抽样调查 并不都是适用的,因为它要假定y对x 的总体的回归 是线性的,y对这条回归线的剩余方差是常数,并且 总体是无限的。若前两个假定完全是错的,则线性 回归估计量可能就不能用了。然而在y对x的回归被 认为是近似线性的调查中,不必假定确切的线性关 系或常值的剩余方差就能用ylr 。
§5.2 b已预先确定情况下的回归估计量
在大部分的应用中,b是从样本的结果中估计得出的 ,这时b可视为一随机变量。但有时也有理由要事先 选好b的值,如有良好的经验和资料能较好地事先确 定好b ,这时b可视为一常数。 定理1 在简单随机抽样中,当b0是预先确定的常数 时,线性回归估计量 ylr y b0 X x
5第五章比估计与回归估计
RS X 1 S X X 1 C X 2 SY 2 SY Y 2 CY
(5.12)
(5.12)表明,如果变量X与Y正相关,且相关程度非常密 切的话,那么比估计的精度高于简单随机抽样的精度。如果 相关程度不那么密切( C X 2CY ),此时已知的X信息并 没有较多地提供Y的信息,借助X来推断 Y 也许会“帮倒忙” 假如X与Y是负相关,则更不能采用比估计方法,此时应采用 所谓乘积估计,即: x y x y p N yp , y (5.13) X X 当 n 充分大时,且满足:
如果简单随机样本为( xi , yi ) (i 1, 2,, n) ,则 Cov( X , Y ) 及 的估计为:
S xy
1 n ( xi x )( yi y ) n 1 i 1
(5.3)
ˆ
(x
i 1
n
i
x )( yi y )
1 2 1 2
(5.4)
1 SX X 1 CX 2 SY Y 2 CY
成立
(5.14)
Var ( yR ) Var ( y )
例5.1 某县小麦种植面积为218756亩,分布在N=576个村,为 估计全县产量,随机无放回地抽取n=24个村,所得数据如下
村i
1 2 3 4 5 6 7 8 9 10 11 12
数值例子例52某地区有976个自然村根据该地区的地貌将各村所属耕地划为三种类型各村按类型上报了耕地面积以亩计算为核实这些上报数据采用按比例分配的分层随机抽样方法在每一种类型中抽取若干村进行实测核实倘若以x表示上报数据以y表示实测数据抽样结果如下表
第五章 §1
一、问题的提出
比估计与回归估计 概述
前面讨论的简单随机抽样和分层抽样,我们所关心的参 数都是单指标的,给出的估计量也是线性形式。这一章我们 将要讨论比较复杂的情况,我们关心的参数不再是单指标的 而是两个或两个以上的指标。此时,遇到的统计量不再是线 性形式,往往呈现出非线性形式,比如两个变量之比,或呈 现变量之间的回归关系。 所谓回归关系就是变量之间的关系不是确定的,是带有 随机影响的。比如身高和体重的关系,身高增加时,一般来 说,体重也会增加,但又不能说一定如此。要确定身高和体
比率估计回归估计(抽样技术——蒋妍)
B( yR ) E( yR ) Y 0.31356
MSE( yR ) V ( yR ) B2 ( yR ) 2.92
• 简单估计是无偏的,而比估计是有偏的。 • 简单估计量的方差远远大于比估计量的方差,比估计的偏差不大, 其均方误差也比简单估计的小得多。 • 因此对这个总体,比估计比简单估计的效率高。
1 f 2 V y Sy n
1 f 2 1 f 2 2 V yR S y R 2 S x 2 RS yx S y R 2 S x2 2 RS y S x n n
比率估计量优于简单估计量的条件是:
2 R2 Sx 2RS y Sx 0
6 10 46 平均值 4.5 18
y yR X x
y x
i i
X
1 15 E ( yR ) yRi 17.686 15 i 1
1 2 V ( yR ) yRi E ( yR ) 2.82 15 i 1
15
1 15 E ( y ) yi 18 15 i 1
后者的总体均值为Y
故(2)式成立
其样本估计量:
1 f 2 2 2 ( y Lr ) ( s y 0 s x 2 0 s yx ) n
(3)
性质:
A: y Lr 是 Y 的无偏估计 B: ( y Lr ) 是 V ( y Lr ) 的无偏估计 C: 0 的最佳值是
如果每一层样本量都比较大,各层R相差较大,则分别比 率估计量的方差小于联合比率估计量的方差。 但当每层的样本量不太大时,还是采用联合比率估计量更 可靠些,因为这时分别比率估计量的偏倚很大,从而使总 的均方误差增大。
05比估计与回归估计
yr
Variable ybar yr
N 2000 2000
Mean 309409 309817
Median 308093 309806
StDev 28889 2664
SE Mean 646 60
Variable ybar yr
Minimum 228803 301659
Maximum 420038 320089
ˆ 因R的分布有偏,可通过 来构造R的置信区间。 d d y Rx . d y Rx ~ N (0, 1) 1 f 2 1 f 2 S y R 2 S x2 2 RSyx Sd n n P ( u1 / 2 w u1 / 2 ) 1 w 解不等式 u1 / 2 w u1 / 2 便可得R的置信度近似为 的置信区间。 1
ˆ -R y -R y-Rx R x x xX ˆ R ) 1 [ E ( y ) RE ( x )] 0 E(R X ˆ ) MSE ( R) E ( R R) 2 1 E ( y Rx ) 2 ˆ ˆ V (R X2 1 f 2 2 E ( y Rx ) S n
C8
例. 美国农业普查的资料
总体:3044个县(去掉了数据缺失的34个县) yi=第i个县1992年全部农场的面积(英亩); xi=第i个县1987年全部农场的面积。
Y 943336889 R 0.980404 X 962192213
从中抽取n=200的SRS,则 布如上图所示。
ˆ R y / x 的抽样分
R R
ˆ 根据上节Th5.1.1中 R 的期望、均值来证明
3. 比估计量优于简单估计的条件
Th 5.2.2 对于SRS,在 n 较大时,若 C x (2C y ) ˆ 则 V (YR ) V ( y )。其中 C x S x X 为变量 x 的总体 变异系数,C y S y Y 为变量 y 的总体变异系数。
比率估计和回归估计
Ratio and Regression Estimator引例:1802年,拉普拉斯想要估计法国的人口数目。
他获得了一个遍布全国范围的30个社区(commune )的样本,截至1802年9月23日总共有2037615居民。
在包括1802年9月23日以前的三年中,215599个新生儿在30个commune 。
拉普拉斯认为30个commune 的每年注册的新生儿数为215599/3=71866.33。
把2037615按照71866.33 来分,拉普拉斯估计每年每28.35人里有一个注册新生儿。
具有众多人口的乡镇也就可能有同样众多的注册新生儿,通过用28.35乘以全法国年度新生儿总数来估计得出法国人口总数。
调查中都有辅助信息,抽样框也通常有每个单元额外的信息,这些信息能被用来提高我们的估计精度。
一、为什么要使用比率估计/回归估计利用总体的辅助信息提高估计的精度。
辅助指标的选择:第一,辅助指标应该与调查指标有较好的正的相关关系。
第二,x y的抽样分布较ux y 的抽样分布变动性要小得多。
第三,辅助指标的总体总量或总体均值已知。
比率估计、回归估计需要有足够的样本量才能保证估计的有效。
有偏估计:当样本量足够大时,估计的偏倚趋于0。
简单地想要估计一个比率:假定总体由面积不同农业用地构成,i y i =地谷物的产量,i x i =地的面积,B=每亩谷物的平均产量。
想要估计一个总体总数,但总体大小N 是未知的。
但是我们知道,于是可以通过y N t y =ˆ来估计N,由此我们可以使用不同于总数N 的方法而是采用辅助变量来进行测量。
要估计渔网中长度长于12cm 的鱼的总数,抽取一个鱼的随机样本,估计长度长于12cm 的鱼所占的比例,用鱼的总数N 乘以这个比例即可得到,但如果N 未知不能使用。
能称量渔网中鱼的总重量。
鱼的长度与其重量相关。
xt yt x yr =ˆ调整来自样本的估计量以便它们反映人口统计学的总量。
在一所具有4000名学生的大学提取一个400个学生的简单随机样本,此样本可能包含240个女性,160个男性,且其中被抽中的84名女性和40名男性计划以教学为毕业后的职业。
第五章比率与回归估计
f
2
( yi R xi )2
i1
n 1
1
f
2
(
s
2 y
2
R
s
2 x
2
R
s yx )
nX
nX
n
v
( yi R
i1
n 1
xi )2
1
f
2
(
s
2 y
2
R
s
2 x
2
R
s yx
)
nx
nx
s
2 y
1 n 1
n i1
( yi
y
)
2
,
s
2 x
1 n 1
n i1
( xi
x)2,
s yx
1 n 1
W12V11 2W1W2V12 W22V22
W1 W2 1
为 求 W1 W 2 1的 约 束 下 , 使 V ( y MR )达 到 极 小 的 权 数 , 可利用拉格朗日乘数法,令
V * W12V11 2W1W 2V12 W 22V22 2 (W1 W 2 1)
V * W1
总体比率和总体比例区别:P是总体调查单位 数N已知,只涉及一个调查变量,而R涉及两 个调查变量,均需调查。
第二节 比率估计
一、比率估计量
在简单随机抽样下,若分别以y, x表示样本总值,以
y, x表示样本均值,以R表示样本比率,
yy
R
x
x
,
用R作为总体比率R的估计,称之为R的比率估计.
若X是与Y高度相关的辅助变量且总体均值
y
7.33 7.67 8.67 8.33 9.33 9.67 8.67 9.67 10.00 10.67
比估计与回归估计在分层抽样中的应用
比估计与回归估计在分层抽样中的应用摘要:本文主要探讨了在分层抽样中,估计与回归估计的应用。
首先,我们介绍了分层抽样的基本概念和方法,然后详细阐述了估计和回归估计的基本原理和应用。
我们发现,在分层抽样中,估计和回归估计可以有效地提高样本的代表性和估计的准确性。
此外,我们还讨论了估计和回归估计在实际应用中可能遇到的问题和挑战,以及如何解决这些问题。
最后,我们通过实证研究验证了估计和回归估计在分层抽样中的有效性。
关键词:分层抽样;估计;回归估计;样本代表性;估计准确性;问题与挑战;实证研究。
一、引言1 研究背景和意义在研究背景和意义上,分层抽样是一种复杂而有效的抽样方法,它的主要目标是从复杂的总体中抽取出具有代表性的研究样本。
这种方法特别适用于总体情况复杂,各单位之间差异较大,单位较多的情况。
具体来说,分层抽样将总体按照某种共同特性或属性划分为多个较小的子组或层,再从每个层内独立随机抽取样本。
估计与回归估计作为统计学中的核心概念,其主要目标是根据样本数据来估计或预测一个未知的总体参数。
在分层抽样的背景下,估计和回归估计的应用变得尤为重要。
因为通过这两个方法,我们可以有效地提高样本的代表性和估计的准确性,进而更准确地对总体进行推断和预测。
然而,在实际应用中,我们可能会遇到一些问题和挑战,如如何选择合适的分层变量,如何处理层间异质性等问题。
因此,如何解决这些问题,优化估计和回归估计在分层抽样中的应用,是本研究的重要任务。
最后,我们将通过实证研究来验证估计和回归估计在分层抽样中的有效性。
2 研究目的和方法2.1研究目的2.1.1对比估计与回归估计在分层抽样中的优劣:通过对比研究,明确哪种估计方法在分层抽样中更有效,或者在不同情况下哪种方法更适用。
2.1.2探讨分层抽样中估计与回归估计的应用:研究如何在分层抽样中应用比估计和回归估计,以及如何根据实际情况选择合适的估计方法。
2.1.3为分层抽样中的估计方法提供理论支持和实践指导:通过对比研究,为分层抽样中的估计方法提供理论依据和实践指导,帮助相关领域的研究者和实践者更好地理解和应用这些方法。
比估计与回归估计
L
ˆ YRS
L yh ˆ =∑ X h = ∑ YRh h xh h
L
13
在分层随机抽样中, 在分层随机抽样中 , 若每层的样本量 n h 都 ˆ 较大, 的近似无偏估计。其方差为: 较大,则 YRS 为Y的近似无偏估计。其方差为:
ˆ ) ≈ ∑ N 2 (1 − f h ) ( S 2 + R 2 S 2 − 2 R ρ S S ) V (YRS h yh h xh h h yh xh nh h
3
在实际工作中, 在实际工作中 , 为了充分发挥比估计的优越 在应用比估计时应考虑两条: 性,在应用比估计时应考虑两条: 一是选与调查变量有较密切的正相关关系的 变量作为辅助变量。 变量作为辅助变量 。 因为如果辅助变量与调查变 量的关系不密切, 各自独立变化, 量的关系不密切 , 各自独立变化 , 则对比估计起 不了应有的辅助作用。 不了应有的辅助作用。 二是样本容量要比较大。 二是样本容量要比较大 。 因为比估计是有偏 倚的,只有当样本容量n比较大时, 倚的,只有当样本容量n比较大时,其偏倚才能比 较小,比估计才更加有效。 较小,比估计才更加有效。
18
回归估计的主要特点有: 回归估计的主要特点有 主要特点 回归估计充分利用了有关的辅助变量资料以有 效地提高估计的精度; 效地提高估计的精度; 回归估计中要求辅助变量的总体均值或总和事 先已知; 先已知; 回归估计一般只适用于有限总体, 回归估计一般只适用于有限总体,因为只有有 限总体才可能计算出辅助变量的总体均值和总和; 限总体才可能计算出辅助变量的总体均值和总和; 回归估计量一般优于比估计量和简单估计量。 回归估计量一般优于比估计量和简单估计量。
第五章
第一节 第二节 第三节 第四节
比估计和回归估计(抽样)
2.20137 ˆ ) E(R ˆ) R B( R 2.20137 2.2 0.00137
2 ˆ ˆ MSE ( R) E ( R R) 1 2 2 ˆ ˆ [ R j 2 R R j 15 R ] 15 0.0012575 2 ˆ ˆ ˆ V ( R) MSE ( R) [ B( R)]
—
x
3.75 4.25 4.50 4.25 4.50 5.00 4.75 5.00 5.50 5.50 5.00 5.25 5.75 5.75 6.25
y
8.25 9.25 10.00 9.50 10.25 11.25 10.25 11.00 12.00 12.25 10.75 11.5 12.5 12.75 13.50
2 (S y R 2 S x2 2 RS yx ) 2 (S y R 2 S x2 2 RS x S y )
Y (C C 2C yx )
2 2 y 2 x
1 f 2 (C y C x2 2C yx ). n
ˆ ) N 2 X 2V ( R ˆ ) MSE (Y ˆ ) V (Y R R N (1 f ) 2 2 2 ( S y R S x 2 RS yx ) n N 2 (1 f ) 2 ( S y R 2 S x2 2 RS x S y ) n 1 f 2 2 Y (C y C x2 2C yx ) n ˆ ) 1 f V (Y 2 2 R ( C C y x 2C yx ). 2 n Y
ˆ R
2.2000 2.1765 2.2222 2.2353 2.2778 2.2500 2.1579 2.2000 2.1818 2.2273 2.1500 2.1905 2.1739 2.2174 2.1600
第五章比率估计与回归估计
17
三、 β 取样本回归系数情形
若β 需根据样本确定,一个合理的选择是取β 为样 本回归系数
n
b
此时 Y 的回归估计量
s yx
2 sx
( y y)( x x)
i 1 i i
( xi x) 2
i 1
n
y lr y b( x X )
为一复杂估计量,不再具有无偏性。
18
四、回归估计与比率估计及简单估计的大样本比较
对于大的样本量,总有
V ( y lr ) V ( y )
这就是说在大样本下回归估计总是优于简单估计,仅在ρ =0时两 者效果相同。
V ( y lr ) V ( y R ) 的充分必要条件为
2 2 2 SY (1 2 ) S Y +R 2 S X 2R SY S X
3
第二节
比率估计
ˆ y y 为样 R x x
一、比率估计量 设对有两个调查变量Y 和X 的总体进行简单随机抽样 ,分别以y, x表示样本总值 ,以 本比率 ,用
y, x 表示样本均值,以
ˆ 作为总体比率R的估计称为的比率估计 。 R
比率估计量除了使用调查变量样本信息外,还要使用辅助变量 总体信息与样本信息,而且是非线性估计量。这类估计量称为复杂 估计量。由于比率估计量使用的信息比简单估计量多,因而有可能 比简单估计量有更高的精度。同时由于比率估计量是非线性估计量, 因而对其性质的研究比对简单估计量要复杂得多。
i 1 i i
12
ˆ ˆ YR = R X = 18459 ×86436=97573.52(万元) 16352
ˆ N (1 f ) ( yi Rxi ) 2 ˆ v(YR ) i 1 n n 1
比估计与回归估计
i 1
i 1
i 1
i 1
sd 2
1 9
10 i 1
( yi
Rˆxi )2
3.474
已知X 16300, X 16300 16.3 1000
V
d2
1 / 2
0.012 1.962
2.603105
n0
Sd2 X 2V
502,n n0 1 n0
V (Rˆ) MSE(Rˆ)
又 MSE(Rˆ)
E(Rˆ
R)2
E(y Rx)2 X2
对每个总体单元,令Gi Yi RXi,i 1,,N
则G Y RX 0
g y Rx
E(y Rx)2 E(g)2 E(g 0)2
E(g G )2 V(g)
由sd2
1 n 1
n
(yi
i 1
Rˆxi)2
X未知时,也可由x估计。
Y 4.估计
时样本量的确定:
R
如果置信度为1 的绝对误差限为d ,
当n大时,V(YˆR)
1
n
f
Sd2,其中Sd2
1 N 1
N
(yi
i 1
Rxi)2
d 1 /2 V(YˆR)
S2 2 1 / 2 d
N
1 f
n
S
2 g
1 f n
(Yi
RX
)2
i
i 1
N 1
N
V (Rˆ)
M SE( Rˆ )
1 f nX 2
Chap5比估计与回归估计.ppt
,
【例1】P130例5.3
交通运输统计中有三个重要的指标,即运量、
周转量与平均运距,其中平均运距是总周转量 除以运量所得的商。为估计公路载货汽车的平
均运距,在总体中用简单随机抽样抽取32辆货
车,记录每辆车在一个月内的运量xi (单位:吨)
与周转量yi (单位:吨公里),如表所示,试估计
主要内容: 5.1比估计 5.2回归估计 5.3分层比估计与回归估计
5.1比估计
1.基本概念
Y1, Y2 ,... , YN 将总体记为 ,对应样本为 X X ,..., X N 1, 2
Y Y 总体比值 R X X
y1, y2 ,..., yn x1, x2 ,..., xn
2 E ( y Rx ) ˆ ) MSE(R ˆ ) E( R ˆ R) V (R 时 X2
N
2
对每个总体单元,令 Gi Yi RX i (i 1,2,...,N ) 对每个样本单元有 g i yi Rxi (i 1,2,...,n) ,则其总体均值 和样本均值分别为
N N 1 f 1 N 2 2 2 ( Y Y ) 2 R ( Y Y )( X X ) R ( X X ) i i i i n N 1 i 1 i 1 i 1
比估计优于简单估计的条件是
1 f 2 2 1 f 2 2 2 SY 2 RS XY R 2 S X S 2 R S S R SX Y X Y n n
其中β可以是:(1)事先设定的常数;
ˆ Ny Y lr lr
(2)从样本中计算得到的某一特定统计量,如样本回归系数。 几种特殊情况: 当 1时的回归估计量称为差估计量:yd 当 0 时, ylr y ,即为简单估计量。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4
二、比率估计量的偏倚与均方误差
比率估计量是有偏估计量, 比率估计量是有偏估计量,但当样本量增大时其偏倚 将趋于零 。 ˆ 理论上可以证明, ˆ 理论上可以证明,R, y R , YR 分别为 R, Y , Y 的近似无 偏估计量,而且对于比率估计量 而且对于比率估计量, 偏估计量 而且对于比率估计量,其方差主要取决于 Yi 之间的差异, 估计量方差将很小。 与 RX i 之间的差异,当 Yi ≈ RX i 时,估计量方差将很小。 换言之,比率估计量将有很高的精度。这告诉我们,只 换言之,比率估计量将有很高的精度。这告诉我们, 有当两个变量大致成正比例关系时, 有当两个变量大致成正比例关系时,应用比率 估计量才能使估计精度有较大改进。 估计量才能使估计精度有较大改进。
8
案例二
某系统有 56 个企业,去年全系统总产值 86436 万元。为估计今年总产值, 当年年底在所辖全部企业中随机抽取 12 个企业进行调查得如下资料,其中 xi ,
y i 分别为去年和当年产值。
表 5-3 企业
1 2 3 4 5 2131 2286
12 个企业两年产值
6 1176 7 8 9 834 10 11 12
2 56( - 1
=
12 ) 56 ( 12 ×11
ˆ ∑y +R
i =1 2 i
12
2
ˆ ∑ xi2 -2 R
i =1
12
∑ y x )=909860.5376
i =1 i i
12
ˆ se ( Y
R
)=953.87
10
四、 比率估计量优于简单估计量的条件 定量分析计算表明,并非任何情况下比率估计量都优于简单估计量, 定量分析计算表明,并非任何情况下比率估计量都优于简单估计量, 只有当调查变量与辅助变量有较高的正相关性时比率估计量才能使估计 精度有较大提高。 精度有较大提高。若 简单估计量精度高。 简单估计量精度高。
p
设
yRk 是 Y
变量总体均值, 是适当选取的权, 变量总体均值,wk 是适当选取的权,满足 利用拉格朗日乘数法可计算得 此时最小方差为
Vmin y MR
∑w
k =1
k
= 1。
w2 = V11 − V12 V11 + V 22 −2V12
V22 − V12 w1 = V11 + V22 − 2V12
12 i =1 i
12
12
2 i
∑y
i =1
i
=18459,
12
12
2 i
∑y
i =1
=30405031,
y =1538.25,
∑ y x =27016552
i =1 i i
ˆ ˆ YR = R
X = 18459 ×86436=97573.52(万元)
16352
2
n
ˆ 2 ˆ ) = N (1 − f ) ∑ ( y i − Rxi ) v(YR i =1 n n −1
7
解 答过程
N 33
设该地区共有 N 户,要估计的是 R = N 很大, f
= n N
∑ Yi
i =1 N
,
i
ˆ R=
∑y
i =1 33
i
=
∑X
i =1
∑x
i =1
907.2 = 123
7.33
i
≈0,
n
ˆ v2 ( R ) = 1 − 2f
nx
ˆ ∑ ( yi − Rxi )2
i =1
n
=
n −1
13.7967 ˆ ˆ ˆ YR 2 = R2 X 2 = R2 N X 2 = ×301×40.10=4331.63 38.4444 N 2 (1 − f ) 2 ˆ 2 2 ˆ ˆ v (YR 2 ) = ( s y + R2 sx2 − 2 R2 s yx2 ) =126844.51 n
ˆ se(YR1 ) =236.98
2
数据经过计算得如下结果:
y = 13.7967,
s 2 = 35.4858 , y s yx1 =42.26167 , x1 = 24.43899,
2 sx1 = 74.6789187 ,
x2 = 38.4444
2 sx2 = 174.9671
s yx2 =46.5118 ,
1-f = 0.0522332 n
xi ——第 i 户人口数,
yi ——第 i 户一天用于食品支出的费用,
经计算得
33
33
∑x
i =1
i
=123
2 i
∑y
i =1
33
i
=907.2
33
∑x
i =1
2 i
=533
33
∑y
i =1
=28224
∑yx
i =1
i i
=3595.5
试估计该地区平均每人一天用于食品的支出,并求其置信水平 95% 的置信区间。
ˆ se(YMR ) =181.20
由此可见,二元比率估计比两个一元比率估计精度都高,这是由于它使用了更多的正相关 性辅助信息的缘故。
14
六、乘积估计
当辅助变量X 与调查变量Y 呈负相关关系时, 当辅助变量 与调查变量 呈负相关关系时,不能应用比率估计 而应改用乘积估计
xy yp = X
乘积估计优于简单估计的条件是
y lr = y+β X − x) = y − β ( x − X ) (
ˆ Ylr = N y lr
xy ˆ Yp = N X
CX 2CY
ρ
此时
< -
V ( y p ) < V ( y)
在实际问题中与调查变量呈负相关的变量很少见, 在实际问题中与调查变量呈负相关的变量很少见,因此乘积估计 应用极为有限。 应用极为有限。
15
第三节 回归估计
一、定义 在简单随机抽样下, 在简单随机抽样下,总体均值 Y 和总体 总值Y的回归估计量定义为: 总值 的回归估计量定义为: 的回归估计量定义为
33
(n − 1)(∑ xi ) 2
i= i =1
n
ˆ (∑ y + R
i =1 2 i
n
n 2
∑x
i =1
2 i
ˆ − 2 R ∑ yi xi )
i =1
n
33
2 i
将 n=33,
ˆ R =7.33
及
∑y
i =1
=28224,
∑x
i =1
2 i
33
=533,
∑ y x =3595.5 代入得
i =1 i i
3
第二节
一、比率估计量 x表示样本总值 ,以 表示样本总值 本比率 ,用
比率估计
ˆ y y 为样 R= = x x
设对有两个调查变量Y 分别以y, 设对有两个调查变量 和X 的总体进行简单随机抽样 ,分别以 ,
y , x表示样本均值,以 表示样本均值,
ˆ 作为总体比率R的估计称为的比率估计 作为总体比率 的估计称为的比率估计 。 R
18 16 14 12 10 8 6 4 2 0 50-60 70-80
35% 30% 25% 20%
`
15% 10% 5% 0% 90-100
第五章 比率估计与回归估计
本章要点
本章讨论了简单随机抽样和分层随机抽样下比率估计量 和回归估计量的构造及性质。要求: 和回归估计量的构造及性质。要求: ①掌握总体比率、比率估计量及回归估计量的概念。 掌握总体比率、比率估计量及回归估计量的概念。 ②了解比率估计量、回归估计量的偏倚、方差及方差的 了解比率估计量、回归估计量的偏倚、 估计量。 估计量。 ③掌握应用比率估计量及回归估计量的条件。 掌握应用比率估计量及回归估计量的条件。
现利用种植面积和良种比例为辅助变量对皮棉产量进行 比率估计。
13
解答过程
先考虑一元比率估计。
13.7967 ˆ ˆ YR1 = R1 X 1 = ×7450=4205.80 24.43899
N 2 (1 − f ) 2 ˆ 2 2 ˆ ˆ v (YR1 ) = ( s y + R1 sx1 − 2 R1s yx1 ) =56158.11 n
ˆ se(YR 2 ) =356.15
再考虑二元比率估计。
w1 = v22 − v12 =0.6568, v11 + v22 − 2v12
w2 =1- w1 =0.3432
ˆ ˆ ˆ YMR = w1YR1 + w2Y R 2 ==4248.98
2 N 2 (v11v22 − v12 ) ˆ =33014.94 v (YMR ) = v11 + v22 − 2v12
ˆ ˆ ˆ ˆ [ R[− uα se( R), R + uα se( R )] ]
2 2
是标准正态分布的上α/2分位点 < 分位点, 其中 uα 是标准正态分布的上α/2分位点,0<α<
2
1。类似可得 。
的置信区间。 的置信区间 Y 、Y的置信区间。
6
案例一
在某地区抽取由 33 个住户组成的简单随机样本, 对每户调查两个指标:
xi
764 1642 957 1324 853 1835 1028 1512
1618 1532
1432 1728 1214 1648 1904 1534
yi
1354 1826
1721 958
试估计今年总产值,并给出标准差的估计。
9
解答过程
以去年产值变量为辅助变量构造比率估计量计算可得
∑ x =16352, ∑ x =24043730, x =1362.67, i =1