《抽样技术》第五章-回归估计量

合集下载

应用抽样技术课后习题答案

应用抽样技术课后习题答案

=(0.0907,0.4433)
N1的95%的置信区间为: (159,776) 95%的置信区间为 (159, 的置信区间为:
(3)N=1750,n=30, (3)N=1750,n=30,n1=8, t=1.96, p=0.267, q=1q=1-0.267=0.733 由此可计算得: t 2q 1.962 × 0.733 n0 = 2 = =1054.64 r p 0.01× 0.267 n = n0/[1+(n0—1)/N] = 1054.64/[1+1053.64/1750]=658.2942 = 659 计算结果说明,至少应抽取一个样本量为659的简单随机 样本,才能满足95%置信度条件下相对误差不超过10%的精度 要求。
t=1.96 (2)易知,N=1750,n=30, n = 8 1 n 8 N − n 1750 − 30 1− f p= 1 = = 0.267 = = = 0.03389 n −1 (n −1)N 29 ×1750 n 30
pq = p(1 − p) = 0.267 × 0.733 = 0.1957
5.5 证明:由(5.6)得:
V ( yR ) ≈ 1− f n (Yi − RX i )2 ∑
i =1 N
N −n 2 令 Sd = V , Nn
2 d
N −1
=
N −n 2 Sd Nn
则n(NV + S ) = NS ,
2 d
S 2 NSd 从而n = = V 2 2 NV + Sd Sd 1+ NV
第五章 比率估计与回归估计
5.2 N=2000, n=36, 1-α=0.95, t=1.96, ˆ f = n/N=0.018, v(R) = 0.000015359, ˆ se(R) =0.00392 置信区间为[40.93%,42.47%]。 置信区间为[40.93%,42.47%]。

《抽样技术》练习题5及答案

《抽样技术》练习题5及答案

习题一1.请列举一些你所了解的以及被接受的抽样调查。

2.抽样调查基础理论及其意义;3.抽样调查的特点。

4.样本可能数目及其意义;5.影响抽样误差的因素;6.某个总体抽取一个n=50的独立同分布样本,样本数据如下:567 601 665 732 366 937 462 619 279 287690 520 502 312 452 562 557 574 350 875834 203 593 980 172 287 753 259 276 876692 371 887 641 399 442 927 442 918 11178 416 405 210 58 797 746 153 644 4761)计算样本均值y与样本方差s2;2)若用y估计总体均值,按数理统计结果,y是否无偏,并写出它的方差表达式;3)根据上述样本数据,如何估计v(y)?4)假定y的分布是近似正态的,试分别给出总体均值μ的置信度为80%,90%,95%,99%的(近似)置信区间。

习题二一判断题1 普查是对总体的所有单元进行调查,而抽样调查仅对总体的部分单元进行调查。

2 概率抽样就是随机抽样,即要求按一定的概率以随机原则抽取样本,同时每个单元被抽中的概率是可以计算出来的。

3 抽样单元与总体单元是一致的。

4 偏倚是由于系统性因素产生的。

5 在没有偏倚的情况下,用样本统计量对目标量进行估计,要求估计量的方差越小越好。

6 偏倚与抽样误差一样都是由于抽样的随机性产生的。

7 偏倚与抽样误差一样都随样本量的增大而减小。

8 抽样单元是构成抽样框的基本要素,抽样单元只包含一个个体。

9 抽样单元可以分级,但在抽样调查中却没有与之相对应的不同级的抽样框。

10 总体目标量与样本统计量有不同的意义,但样本统计量它是样本的函数,是随机变量。

11 一个抽样设计方案比另一个抽样设计方案好,是因为它的估计量方差小。

12 抽样误差在概率抽样中可以对其进行计量并加以控制,随着样本量的增大抽样误差会越来越小,随着n越来越接近N,抽样误差几乎可以消除。

应用抽样技术答案

应用抽样技术答案

3.5解:已知
PQ (1) 由 n0 得: V ( p)
1 0
P1= 0.08, Q1= 1-P1 = 0.92; P2= 0.05, Q2 = 1– P2 = 0.95; V(p) = 0.05*0.05

0.08 0.92 n 30 2 0.05 Q 得: (2) 由 n0 2 Cv ( p) P
(2)事后分层
Ppst=ΣhWhph=0.7*1/43+0.3*2/57=0.0268 V(Ppst) =ΣhWh2[(1—fh)/(nh—1)]phqh =0.72*[1/42](1/43)(42/43)+0.32*[1/56](2/57)(55/57) =0.00031942
第五章 比率估计与回归估计
N1 的95%的置信区间为: (159,776)
(3)N=1750,n=30,n1=8, t=1.96, p=0.267, q=1-0.267=0.733 由此可计算得: t 2 q 1.962 0.733 n0 2 1054.64 r p 0.01 0.267
n = n0/[1+(n0—1)/N] = 1054.64/[1+1053.64/1750]=658.2942 = 659
21 22 23 24 25 26 27 28 29 30
49 45 95 36 25 45 128 45 数据,有:
1682 2 56.07(元), s y (118266 16822 / 30) / 30 798.73 yi 1682, y 30
回归系数 b = Sxy/Sxx2= 370.5965 ylr=x—b(x—X)=1260—370.5965*(2.97—460/140)=1377.089

05抽样估计资料

05抽样估计资料

第五章抽样估计第一节抽样估计的理论基础抽样估计的基本内容就是研究如何根据总体的部分数据信息(构造样本指标也称统计量)去估计未知总体指标(也称参数)的理论和方法。

学习步骤:抽样估计的理论基础——大数定律和中心极限定理→掌握抽样分布的有关概念及基本原理→抽样估计的理论和方法。

一、大数定律大量的独立重复测量值的算术平均值具有稳定性。

对于这种稳定性的研究构成了大数定律的基本内容。

两个重要的大数定律:贝努里大数定理、辛钦大数定律设事件A在一次试验中发生的概率为p,在n次独立重复试验中,事件A发生了m次,那么对任意给定的正数ε,有其等价形式是贝努里大数定理说明:事件发生的频率m/n,依概率收敛于事件发生的概率p,这个定理用严格的数学形式表达了频率的稳定性,也就是说,当n很大时,事件发生的频率与概率有较大偏差的可能性很小。

因此,当n很大时,可用事件发生的频率m/n近似地代替事件发生的概率p,即p≈m/n,这种方法称为抽样估计,它是数理统计的主要研究课题。

(二)辛钦大数定律设随机变量X1,X2,…,X n相互独立,服从同一分布,且(E(X k)=μ,k=1,2,…),则对任意正数ε,恒有:辛钦大数定律为我们用测量数据的算术平均数代替其真值的方法提供了理论依据。

假定要测量某一物理量μ,在不变条件下测量n次,得到的结果X1,X2,…,X n是不完全相同的,它们可以看作n个独立随机变量X1,X2,…,X n(它们服从同一分布且数学期望均为μ)。

按照辛钦大数定律,当n很大时,我们取n次测量结果的算术平均数作为真值μ的近似值,这时出现较大偏差的可能性很小。

一般说来,测定的次数越多,近似程度越好。

二、中心极限定理当处理大样本问题时,将它作为一个非常重要的工具。

下面介绍两个常用的中心极限定理。

定理1:林德贝格—勒维中心极限定理,也称为独立同分布中心极限定理。

定理2:德莫佛—拉普拉斯中心极限定理。

它表明:二项分布的极限分布是正态分布,因此,当n充分大时,若随机变量X n~B(n,p),则近似地有X n~N(np,np(1-p),于是我们可以利用正态分布近似地计算二项分布的概率。

抽样技术(第5版)课件PPT课件第5章

抽样技术(第5版)课件PPT课件第5章
抽样。如果超市的营业面积近似正比于超市的销
售额,那么超市A的销售额就占所有超市销售额
的1/16,因此超市A的销售额乘16可以近似的估
计所有超市的销售额。因此,样本量为1的不等
概率抽样的总体总量估计量为
෠ = ෍ = ෍
式中




1
1
=
=
(单元在样本中)
第二节 放回不等概抽样
nn 1 i 1 mi M 0


s YˆHH v YˆHH
765404
2
174454

s YˆHH
174118
r t
1.96
=45%
757087

HH
相对误差达到20%时所需样本量对误差达到20%
时所需样本量nnnnnnn
n= 150
第二节 放回不等概抽样
Z
Z
nm
n i 1 Z i
i 1 Z i
1

j
1

i
ij
i


它的一个无偏估计量为
v(Yˆ )
n
1 n ˆ2
1
2
2
ˆ
ˆ
ˆ
nY

Y

)
Y

Y
(
i
i

n n 1 i 1
n n 1 i 1

M i 1 Kij Yiju2

2
Y



Mi
1
常数K
nZi mi
f0
这里,f 0 为总体中任意一个二级单元被抽中的概率。如果f 事先确定,则

《抽样技术》练习题及标准答案

《抽样技术》练习题及标准答案

《抽样技术》练习题及答案————————————————————————————————作者:————————————————————————————————日期:习题一1.请列举一些你所了解的以及被接受的抽样调查。

2.抽样调查基础理论及其意义;3.抽样调查的特点。

4.样本可能数目及其意义;5.影响抽样误差的因素;6.某个总体抽取一个n=50的独立同分布样本,样本数据如下:567 601 665 732 366 937 462 619 279 287690 520 502 312 452 562 557 574 350 875834 203 593 980 172 287 753 259 276 876692 371 887 641 399 442 927 442 918 11178 416 405 210 58 797 746 153 644 4761)计算样本均值y与样本方差s2;2)若用y估计总体均值,按数理统计结果,y是否无偏,并写出它的方差表达式;3)根据上述样本数据,如何估计v(y)?4)假定y的分布是近似正态的,试分别给出总体均值μ的置信度为80%,90%,95%,99%的(近似)置信区间。

习题二一判断题1 普查是对总体的所有单元进行调查,而抽样调查仅对总体的部分单元进行调查。

2 概率抽样就是随机抽样,即要求按一定的概率以随机原则抽取样本,同时每个单元被抽中的概率是可以计算出来的。

3 抽样单元与总体单元是一致的。

4 偏倚是由于系统性因素产生的。

5 在没有偏倚的情况下,用样本统计量对目标量进行估计,要求估计量的方差越小越好。

6 偏倚与抽样误差一样都是由于抽样的随机性产生的。

7 偏倚与抽样误差一样都随样本量的增大而减小。

8 抽样单元是构成抽样框的基本要素,抽样单元只包含一个个体。

9 抽样单元可以分级,但在抽样调查中却没有与之相对应的不同级的抽样框。

10 总体目标量与样本统计量有不同的意义,但样本统计量它是样本的函数,是随机变量。

比估计和回归估计(抽样)

比估计和回归估计(抽样)
2
ˆ ˆ V ( Y ) V ( y ) V ( R ) 2 R R (cv ) 2 2 2 Y Y R 1 f 2 2 (C y C x 2C yx ). n
2.估计量方差
例:对上例中的人为总体,计算 得:
2 2 Sy 23.6, S x 5.2, S yx 11.0, N 6
Σ
75.00
165.00
33.0206
165.1029
(1)根据总体单元值标值可得:
X X i 30, X 5; Y Yi 66, Y 11; Y 11 R 2.2 X 5
(2)根据全部可能样本资料计算 估计量的均方误差、方差和偏倚
15 1 33 . 0206 ˆ) R ˆ E(R j 15 j 1 15
x
3.75 4.25 4.50 4.25 4.50 5.00 4.75 5.00 5.50 5.50 5.00 5.25 5.75 5.75 6.25
y
8.25 9.25 10.00 9.50 10.25 11.25 10.25 11.00 12.00 12.25 10.75 11.5 12.5 12.75 13.50
0.0012556
(3)总体均值的比估计量的均 方误差、方差和偏倚
ˆ ) 5 0.00685 B( y R ) B( R ˆ ) 25 0.03144 MSE ( y ) MSE ( R
R
ˆ ) 25 0.03139 V ( yR ) V (R
ˆ 和y 都是有偏的, 可见,R R 但是偏倚不大,均方误差 和方差的值相差很小。
2.20137 ˆ ) E(R ˆ) R B( R 2.20137 2.2 0.00137

抽样技术课后习题-参考答案-金勇进

抽样技术课后习题-参考答案-金勇进

抽样技术课后习题-参考答案-金勇进第二章习题2.1判断下列抽样方法是否是等概的:(1)总体编号1~64,在0~99中产生随机数r ,若r=0或r>64则舍弃重抽。

(2)总体编号1~64,在0~99中产生随机数r ,r 处以64的余数作为抽中的数,若余数为0则抽中64.(3)总体20000~21000,从1~1000中产生随机数r 。

然后用r+19999作为被抽选的数。

解析:等概抽样属于概率抽样,概率抽样具有一些几个特点:第一,按照一定的概率以随机原则抽取样本。

第二,每个单元被抽中的概率是已知的,或者是可以计算的。

第三,当用样本对总体目标进行估计时,要考虑到该样本被抽中的概率。

因此(1)中只有1~64是可能被抽中的,故不是等概的。

(2)不是等概的【原因】(3)是等概的。

2.2抽样理论和数理统计中关于样本均值y 的定义和性质有哪些不同?2.3为了合理调配电力资源,某市欲了解50000户居民的日用电量,从中简单随机抽取了300户进行,现得到其日用电平均值=y 9.5(千瓦时),=2s 206.试估计该市居民用电量的95%置信区间。

如果希望相对误差限不超过10%,则样本量至少应为多少?解:由已知可得,N=50000,n=300,5.9y =,2062=s1706366666206*300500003001500001)()ˆ(222=-=-==s nf N y N v YV 19.413081706366666(==)y v 该市居民用电量的95%置信区间为[])(y [2y V z N α±=[475000±1.96*41308.19]即为(394035.95,555964.05) 由相对误差公式y)(v u 2y α≤10%可得%10*5.9206*n50000n 1*96.1≤- 即n ≥862欲使相对误差限不超过10%,则样本量至少应为8622.4某大学10000名本科生,现欲估计爱暑假期间参加了各类英语培训的学生所占的比例。

《抽样技术(第二版)金勇进等编著》习题解答

《抽样技术(第二版)金勇进等编著》习题解答

《抽样技术(第二版)金勇进等编著》习题解答第二章2.22.3 解:已知2ˆ9.5,206,50000,300500009.5475000y s N n Y Ny ====∴==⨯=, 222211300/50000ˆ()50000206500000.6825170636666730041308.19128,80964.05491f v YN s n --∴==⨯⨯=⨯===所以居民日用电量的95%的置信区间为 ˆˆ[[47500080964.05491,47500080964.05491] [394035.9451,555964.0549]YY -+=-+=相对误差为ˆd Y Y r Y-=2.4 解:ˆ0.35Pp == , 11200/1000010000()(1)0.35(10.35)0.0011512009999f N V p P P n N --=-=⨯⨯⨯-=-0.03339=∴P 的95%置信区间为:[[0.35 1.960.03339,0.35 1.960.03339][0.2846,0.4154]p p -+=-⨯+⨯=2.5 解:已知200,20N n ==,根据已知数据计算得:2144.5,826.0526,() 6.096915y s v y ==∴== ∴Y 的95%置信区间为:[[144.5 1.96 6.096915,144.5 1.96 6.096915][132.55,156.45]y y -+=-⨯+⨯=2.6 解:已知2ˆ1120,25600,350,503501120392000y S N n Y Ny ====∴==⨯=,2221150/350ˆ()350256003840000506196.773,12145.68f V YN S n --∴==⨯⨯===∴ˆY的95%置信区间为:ˆˆ[[379854.3,404145.7]Y Y -+= 2.7 解:已知21000,2,68,10.95N d S α===-=,222022221000 1.966861.3010002 1.9668Nt S n Nd t S ⨯⨯∴===+⨯+⨯0161.387.571430.7n n r === 样本量最终为88个家庭。

《抽样技术》练习题及标准答案

《抽样技术》练习题及标准答案

《抽样技术》练习题及答案————————————————————————————————作者:————————————————————————————————日期:习题一1.请列举一些你所了解的以及被接受的抽样调查。

2.抽样调查基础理论及其意义;3.抽样调查的特点。

4.样本可能数目及其意义;5.影响抽样误差的因素;6.某个总体抽取一个n=50的独立同分布样本,样本数据如下:567 601 665 732 366 937 462 619 279 287690 520 502 312 452 562 557 574 350 875834 203 593 980 172 287 753 259 276 876692 371 887 641 399 442 927 442 918 11178 416 405 210 58 797 746 153 644 4761)计算样本均值y与样本方差s2;2)若用y估计总体均值,按数理统计结果,y是否无偏,并写出它的方差表达式;3)根据上述样本数据,如何估计v(y)?4)假定y的分布是近似正态的,试分别给出总体均值μ的置信度为80%,90%,95%,99%的(近似)置信区间。

习题二一判断题1 普查是对总体的所有单元进行调查,而抽样调查仅对总体的部分单元进行调查。

2 概率抽样就是随机抽样,即要求按一定的概率以随机原则抽取样本,同时每个单元被抽中的概率是可以计算出来的。

3 抽样单元与总体单元是一致的。

4 偏倚是由于系统性因素产生的。

5 在没有偏倚的情况下,用样本统计量对目标量进行估计,要求估计量的方差越小越好。

6 偏倚与抽样误差一样都是由于抽样的随机性产生的。

7 偏倚与抽样误差一样都随样本量的增大而减小。

8 抽样单元是构成抽样框的基本要素,抽样单元只包含一个个体。

9 抽样单元可以分级,但在抽样调查中却没有与之相对应的不同级的抽样框。

10 总体目标量与样本统计量有不同的意义,但样本统计量它是样本的函数,是随机变量。

抽样技术第五章课后答案

抽样技术第五章课后答案

抽样技术第五章课后答案抽样是统计过程中的一个重要环节,它能提供更有效的统计息。

为了获得更加精确的结果,必须使用适当的抽样方法。

抽样方法包括()。

正确地使用()是指()式中所有抽样变量均可视为相同量。

每一组()个变量与某一组()个变量之间有()种相关性。

A:无关系变量; B:线性关联变量; C:关系-线性关联变量; D:线性相似性; E:线性相关性; F:相关性:对数关系。

一、问题定义给定样本,求所需数量。

分析数据求与所需数量对应的样本。

用多组样本重复抽取一组样本。

问题定义二、问题特征问题1:随机选择一个个体,要求其按照一定的方式计算一下,该个体与被抽到的抽样组的数量相等。

问题2:问题1中要得到的抽样组的数量为:从任意数量个样本的统计意义上(单位为 k)或从任意数量个样本的统计意义上(n、 n)去推断出有多少个样本属于随机选取一种方法计算出来的数量与原问题1中随机抽取一个总样本相等的数量与原问题1中随机抽取一个总样本相等的数量之间有着相关关系。

从该角度出发考虑这种相关性,即可以得出如下结果:本题的基本思路与前面两题类似。

从已知条件出发考虑这个问题中不同群体中所占比例之间的相关性:对于某群体内所有个体来说,个体数量都是相同的比例是这样形成的: a.对于随机变量 N; b.每个个体所占比例=群体人数 b+个体人数 c= B; c.群体人数 a=(1- M) b+个体人数c=(1- N) b+个人人数 c=(1- M) c= C; d、 e、 f三种形式均不是随机变量: a.对于该群体中所有个体来说,个体总数与群体总人数之间呈现线性相关关系: b.对于该群体中所有个体来说唯一没有显著线性关系的就是 a。

三、抽样的基本原理抽样的基本原理是将所有变量用等比例形式分组,然后对每个分组进行统计,以发现该分组与总体之间的相互关系,以及分析样本中的差异。

1所示。

抽样方法分为正向抽样法和反向抽样法。

正向抽样是指将所有变量都作为等值统计量进行正比例随机抽样。

第5章抽样与抽样估计演示

第5章抽样与抽样估计演示

PPT文档演模板
第5章抽样与抽样估计演示
三、样本比例的抽样分布
∵样本中具有某种特征的单位数x~B(n,P)
∴样本比例的精确分布——二项分布
PPT文档演模板
样本比例的近似分布——正态分布
•(大样本下)
•均值、比率 抽样分布一览 表
第5章抽样与抽样估计演示
第三节 抽样估计的基本方法
这节是本章的中心。参数估计最基本的方 法是简单估计(又有点估计和区间估计 两种)。不讨论比估计和回归估计。抽 样数目也是事先必须估计的量。
(一)正态总体,总体方差已知时 样本均值的抽样分布——正态分布
样本均值的标准值的抽样分布——标准正态分布
大样本下,样本均值的抽样分布—— —渐进正态分布
均值的抽样平均误差=样本均值的标准差
(二)正态总体,总体方差未知时 样本均值的标准值的抽样分布——t分布
PPT文档演模板
第5章抽样与抽样估计演示
均值的抽样分布
第5章_抽样与抽样估计 演示
PPT文档演模板
2020/11/26
第5章抽样与抽样估计演示
本章要解决的主要问题
• 抽样——抽取样本
• 什么是样本 • 怎么抽——抽样方式、方法 • 从哪里抽——抽样框 • 抽 多 少 —— 样本大小
• 抽样估计——用所抽取样本去估计总体
• 要估计什么——总体参数(总体特征) • 用什么来估计——样本估计量 • 用什么估计方法 • 估计结果的形式 • 估计结果的可靠性和准确性
再见,see you again
PPT文档演模板
2020/11/26
第5章抽样与抽样估计演示
第一节 抽样调查中的基本概念
本节的目的、说明
本节的主要内容——

《抽样技术》练习题5及答案

《抽样技术》练习题5及答案

习题一1.请列举一些你所了解的以及被接受的抽样调查。

2.抽样调查基础理论及其意义;3.抽样调查的特点。

4.样本可能数目及其意义;5.影响抽样误差的因素;6.某个总体抽取一个n=50的独立同分布样本,样本数据如下:567 601 665 732 366 937 462 619 279 287690 520 502 312 452 562 557 574 350 875834 203 593 980 172 287 753 259 276 876692 371 887 641 399 442 927 442 918 11178 416 405 210 58 797 746 153 644 4761)计算样本均值y与样本方差s2;2)若用y估计总体均值,按数理统计结果,y是否无偏,并写出它的方差表达式;3)根据上述样本数据,如何估计v(y)?4)假定y的分布是近似正态的,试分别给出总体均值μ的置信度为80%,90%,95%,99%的(近似)置信区间。

习题二一判断题1 普查是对总体的所有单元进行调查,而抽样调查仅对总体的部分单元进行调查。

2 概率抽样就是随机抽样,即要求按一定的概率以随机原则抽取样本,同时每个单元被抽中的概率是可以计算出来的。

3 抽样单元与总体单元是一致的。

4 偏倚是由于系统性因素产生的。

5 在没有偏倚的情况下,用样本统计量对目标量进行估计,要求估计量的方差越小越好。

6 偏倚与抽样误差一样都是由于抽样的随机性产生的。

7 偏倚与抽样误差一样都随样本量的增大而减小。

8 抽样单元是构成抽样框的基本要素,抽样单元只包含一个个体。

9 抽样单元可以分级,但在抽样调查中却没有与之相对应的不同级的抽样框。

10 总体目标量与样本统计量有不同的意义,但样本统计量它是样本的函数,是随机变量。

11 一个抽样设计方案比另一个抽样设计方案好,是因为它的估计量方差小。

12 抽样误差在概率抽样中可以对其进行计量并加以控制,随着样本量的增大抽样误差会越来越小,随着n越来越接近N,抽样误差几乎可以消除。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 b B S S 由定理2知,当 h h yxh xh 时, V ylrh min, h 1, , L
从而
Vmin ylrs Wh2Vmin ylrh
h 1 L
L
W 1 f h 2 2 S yh 1 h nh h 1
其中
h 1
L Wh2 1 f h 2 ah S xh , Bc ah Bh nh h 1 L
பைடு நூலகம்
L
2
a
h 1
h

这一结果表明,除非各层的Bh相同,否则最佳选取 的分别估计量比组合估计量有更小的方差。当然, 2 要事先知道 Syxh和S xh 才能作出这些最佳的选择。
§5.7 从样本估计回归系数

§5.4 方差的样本估计

V ylr 的一个大样本估计量
n 1 f 2 2 s ylr yi y b xi x n n 2 i 1 2 n yi y xi x n 1 f 2 i 1 yi y n 2 n n 2 i 1 xi x i 1

经典的线性回归的理论的一些标准结果对抽样调查 并不都是适用的,因为它要假定y对x 的总体的回归 是线性的,y对这条回归线的剩余方差是常数,并且 总体是无限的。若前两个假定完全是错的,则线性 回归估计量可能就不能用了。然而在y对x的回归被 认为是近似线性的调查中,不必假定确切的线性关 系或常值的剩余方差就能用ylr 。
§5.2 b已预先确定情况下的回归估计量
在大部分的应用中,b是从样本的结果中估计得出的 ,这时b可视为一随机变量。但有时也有理由要事先 选好b的值,如有良好的经验和资料能较好地事先确 定好b ,这时b可视为一常数。 定理1 在简单随机抽样中,当b0是预先确定的常数 时,线性回归估计量 ylr y b0 X x

Bh的最小二乘估计为
bh
y
i 1
n
hi n
yh xhi xh
hi
x
i 1
xh
2

当nh都很大时,将定理3用于每一层,有
Wh2 1 f h 2 2 V ylrs S yh 1 h nh h 1
L


2 y . xh
n
i 0 i 1 f 2 i 1 s ylr n n 1 1 f 2 2 2 s 2 b s b y 0 yx 0 sx n
y y b x x
2

定理2 使V ylr 达到最小值的b0是
b0 B
S yx S
2 x

Y Y X
i 1 i
N
i
X
2
X
i 1
N
i
X
称为有限总体中y 对x的线性回归系数。
§5.3 从样本算出b时的回归估计量

B的最小二乘估计是 n
b

y y x x
i 1 i i
x x
i 1 i
n
2
定理3 设b是B的最小二乘估计,且有 ylr y b X x 则对容量为n的简单随机样本,当n很大时, 1 f 2 V ylr S y 1 2 n 其中 S yx S y S x 是y与x的总体相关系数。
L
使 V ylrc min 的b值是 L W 2 1 f h h S yxh Bc nh h 1 可以证明

2 Wh2 1 f h S xh nh h 1 L
Vmin ylrc Vmin ylrs ah Bh Bc
n 1 n 2 2 2 s yhi yh bh xhi xh nh 2 i 1 i 1 2 2 代替 S yh 1 h ,即可得到 V ylrs 的样本估计量。

Bc的一个估计量为

Wh2 1 f h s yxh nh h 1 bc L 2 Wh 1 f h 2 sxh nh h 1 V ylrc 的一个估计量为 2 nh L W 1 f 2 2 h h s ylrc yhi yh bc xhi xh h 1 nh nh 1 i 1
一、分别回归估计量
二、组合回归估计量
一、分别回归估计量
Y WhYh
h 1 L

Yh 的回归估计量 ylrh yh bh X h xh
的分别回归估计量为
Y
ylrs Wh ylrh Wh yh bh X h xh
h 1 h 1
2 h
图中如何分层对精度更有利
二、组合回归估计量

分别对Y 和 X 作出估计
yst Wh yh , xst Wh xh
h 1 h 1
L
L
Y 的组合回归估计量为 ylrc yst b X xst ylrc 是Y 的无偏估计,且 当b是事先给定时,
Wh2 1 f h 2 2 2 V ylrc S 2 bS b S xh yh yxh nh h 1
《抽样技术》第五章
王学民 编
第五章 回归估计量
§5.1 §5.2 §5.3 §5.4 §5.5 §5.6 §5.7 §5.8

线性回归估计量 b已预先确定情况下的回归估计量 从样本算出b时的回归估计量 方差的样本估计 与比率估计量及单元均值的大样本比较 分层抽样中的回归估计量 从样本估计回归系数 两类回归估计量的比较
§5.1 线性回归估计量

当n=N时,ylr Y b X X Y ,所以 ylr 是 Y 的一 致估计量。 若 b=0,则 ylr y 。 y y y X yR 。 若 b ,则 ylr y X x x x x

Y 的线性回归估计量是 ylr y b X x
1 f 2 2 2 2 V yR V ylr R S 2 R S S S x y x y n 2 1 f RS x S y 0 n 在小样本情况下,无法对 ylr , yR , y 的精度作出比较 。
§5.6 分层抽样中的回归估计量
L
§5.8 两类回归估计量的比较
分别估计量的缺点是个别层的样本较小时它易受偏 差的影响,组合估计量的缺点是当总体回归系数在 各层不同时,它的方差就会被夸大。 如果我们相信回归是线性的,且各层的Bh看来大致 相同,则采用组合估计量较好。若回归看来是线性 的,但Bh在各层似乎有明显的不同,则采用分别估 计量较为合适。若回归是有些曲线性质,而采用的 是线性回归估计量时,则除了各层样本都较大的情 形以外,采用组合估计量大概会更安全些。
L
L

当bh是事先给定时, ylrs 是Y 的无偏估计,且
L L 2 V ylrs V Wh ylrh Wh V ylrh h1 h1 L Wh2 1 f h 2 2 2 S yh 2bh S yxh bh S xh nh h 1

是无偏的,它的方差是
1 f i 1 V ylr n N 1 1 f 2 2 2 S 2 b S b y 0 yx 0 Sx n 注 对有限总体中y与x的关系不要求作任何假设。
i 0 i
Y Y b X
N
X
2

推论1 V ylr 的一个无偏估计是
§5.5 与比率估计量及单元均值的 大样本比较

当n很大时,
1 f 2 2 V ylr S y 1 n 1 f 2 2 2 V yR S R S x 2R S y S x y n 1 f 2 V y Sy n

显然, V ylr V y
相关文档
最新文档