第五章比估计与回归估计(抽样调查理论与方法-北京商学

合集下载

市场调查与预测第5章

市场调查与预测第5章
若母体总个数太大,抽样单位广泛分布时,需要采用分段抽样法。
分段抽样(Multi-stage sampling)又称多级抽样或多阶段抽样,就是 把从总体中抽取样本的过程分成两个或多个阶段进行的抽样方法。
它是在总体内个体单位数量较大,而彼此间的差异不太大时,先将总 体各单位按一定标志分成若干群体,作为抽样的第1阶段单位,并依 照随机原则,从中抽出若干群体作为第1阶段样本;然后将第1阶段样 本又分成若干小群体,作为抽样的第2阶段单位,从中抽出若干群体 作为第2阶段样本,依此类推,可以有第3阶段、第4阶段……直到满 足需要为止。最末阶段抽出的样本单位的集合,就是最终形成的总体 样本。
可编辑ppt
24
③循环等距抽样。当N为有限总体而且N不能被n所整除, 也即K不是一个整数,这时K只能取一个比较接近的整数, 这时用直线系统抽样就可能产生偏误。采用循环系统抽样
方法,将总体排成首尾相接的循环园形,用同样的方法确 定间隔K,K可以取最接近的整数,在1~N中抽取一个随 机起点,然后每隔K个单元抽取,直到抽满为止。
可编辑ppt
23
②对称等距抽样。 当n为偶数时要从N个单元中抽取n个样本单元, 先将总体N个单元分成n/2个组使得每组包含2K个单元,
然后在1~K中随机地确定抽样地点,按下面的公式在每 组中抽取距该组两端等距离的两个单元。
当n为奇数时,仍按上式进行,但j在取到[(n-1)/2]-1为 止,并要增加靠近终 端的一个样本单元:[i+(n-1)K]
(2)分层抽样的特点
①可同时对子总体进行参数估计。
②便于依托行政管理机构进行组织和实施,同时还可根据各层 的不同特点采用不同的抽样方式。
③可使样本在总体中分布更加均匀,从而具有更好的代表性。

第五章 比估计与回归估计(抽样理论与方法,河南财政学院)

第五章  比估计与回归估计(抽样理论与方法,河南财政学院)

ˆ) d 1 / 2 V(Y R
1 / 2 2 S d2 2 2 2 n d 0 1 / 2 S d 解得:n ,其中 n 0 2 d2 1 / 2 S d2 1 n0 1 N Nd 2
河南财经学院
例:某公司有1000名职工,为了估计职工今年与去年病假工时的比 率,要抽一个容量为n的简单随机样本进行调查。先随机抽了10人 作试点调查,数据如下: 编号 1 2 去年病假工时 12 24 今年病假工时 13 25
N
2 ( Y RX ) i i i 1
N
N 1
1 f n
N
2 ( Y RX ) 0 i i i 1
N 1
ˆ y 对于简单随机抽样, Y 的简单估计为 Y 1 f ˆ V (Y ) n 河南财经学院
2 ( Y Y ) i i 1
N 1
1 f 2 (2 RS x S y R 2 S x )〉 0 n
RS x Sx / X Cx 〉 2 S y 2 S y / Y 2C y 1 特别若C x C y,则〉 ,即比估计较相应的简 单估计更精确。 2
河南财经学院
4.估计R时样本量的确定:
ˆ 的方差上限为V , 如果R
2 2 i 1 i 1 i 1
10
10
10
2
xi 31.265
2 i 1
70
1 10 ˆ x ) 2 3.474 s d ( yi R i 9 i 1 16300 已知X 16300 , X 16 .3 1000 d2 0.012 5 V 2 . 603 10 1 / 2 1.96 2
xi 242 .0, xi 4706 .54

抽样调查与调查方法教学大纲

抽样调查与调查方法教学大纲

抽样调查与调查方法教学大纲课程属性:公共基础/通识教育/学科基础/专业知识/工作技能,课程性质:必修、选修一、课程介绍1.课程描述:抽样调查是经济工作中,对所研究总体取得数量化信息非常重要的工具,目前在世界各国的实践中得到了广泛的应用,被誉为20世纪最伟大的科技成果之一。

本课程针对高年级经济学类专业学生开设。

课程包括抽样技术中部分内容:抽样技术概述;抽样技术基本概念;简单随机抽样;分层随机抽样;比率估计;不等概率抽样。

通过课程学习,要求学生掌握抽样调查的若干基本理论和方法,能够利用这些理论方法并借助计算机软件对实际问题进行抽样调查和对总体进行区间估计。

2.设计思路:本课程引导高年级经济学类专业学生通过计算机模拟抽样调查作业,掌握抽样调查的设计和估计的技术。

课程内容的选取基于学生“掌握了概率论与数理统计”和“统计学”。

先修课程:概率论与数理统计;统计学。

后置课程:市场预测与管理决策。

主要课程内容如下第一章概述本章主要介绍抽样调查概述、含义、程序与作用,以及抽样调查的产生与发展,人口方面的调查,经济方面的调查,社会方面的调查和其他调查。

第二章抽样调查的基本概念本章介绍了总体与样本的相关概念,及两者之间的关系,估计量与抽样分布,优良估计量的标准,抽样分布定理,抽样误差与置信区间,样本设计的内容,样本设计原则,设计效应与样本量的确定等抽样调查中的基本概念。

第三章简单随机抽样本章介绍了放回简单随机抽样(考虑顺序、不考虑顺序),不放回简单随机抽样(考虑顺序、不考虑顺序),不放回与放回简单随机抽样的比较,简单随机样本的抽选方法(抽签法、随机数法),总体均值的简单估计,总体总值的简单估计,总体比例的简单估计,样本量的确定,确定样本量主要考虑的因素, 估计总体均值(总值)的样本量确定, 估计总体比例的样本量确定。

第四章分层抽样本章主要对分层抽样的方式、估计量及其性质、样本量的确定及分配、设计效果等进行系统介绍。

主要内容有:分层抽样与分层随机抽样、分层抽样的特点与作用、层的划分原则、总体均值的估计、总体总值的估计、总体比例的估计、样本量的分配、样本量的确定、分层抽样设计效果分析。

第五节比估计跟回归估计(抽样调查理论跟方法-北京商学

第五节比估计跟回归估计(抽样调查理论跟方法-北京商学
相关程度不那么密切( CX 2CY ),此时已知的X信息并 没有较多地提供Y的信息,借助X来推断 Y 也许会“帮倒忙”
假如X与Y是负相关,则更不能采用比估计方法,此时应采用 所谓乘积估计,即:
yp
x y X
,
当 n 充分大时,且满足:
y%p
N
x y X
(5.13)
1 SX X 1 CX
361
3
208.2
608
4
158.5
444
5
110.2
298
6
123.3
349
7
157.7
416
8
154.2
428
9
98.7
258
10
112.7
347
11
125.5
351
12
60.3
158
13
105.7
308
14
80.5
217
15
163.0
492
16
98.7
280
17
137.8
378
18
141.2
386
所谓回归关系就是变量之间的关系不是确定的,是带有 随机影响的。比如身高和体重的关系,身高增加时,一般来 说,体重也会增加,但又不能说一定如此。要确定身高和体 重的关系,一般用回归的方法。这类问题首先是由英国统计 学家高尔顿研究儿子的身高与父亲身高关系时提出的,他发
现儿子的身高有回到家族平均身高的趋势,因而把所得关系 式称为回归方程,于是回归的名词就沿用下来了。
X% 218756 X 218756 379.7847 576
所以该县平均亩产小麦估计为:
Rˆ y 130.625 0.358245(吨 亩) x 364.625

抽样调查的理论与方法参考答案

抽样调查的理论与方法参考答案

抽样调查的理论与方法参考答案一、填空题1 随机原则 概率估计 总体数量特征 非全面调查2 调查对象的全部单位 全及总体 有限总体 无限总体3 单位数目 30个4 总体数量特征 确定()∑-=N i Y Y i N 1215 样本数量特征 随机变量 ()∑-=-Ni y y i n 1211统计量6 有顺序不重复抽样 无顺序不重复抽样7 比值比较 差值比较8 偶然性 规律性9 不可能事件 必然事件10 常数 统计规律性11 稳定性 稳定值12 随机因素 所有可能事件13 离散随机变量 连续随机变量14 非负 115 统计量 样本平均数16 不重复抽样 重复抽样17 代表性误差 反比关系18 正比关系 反比关系19 概率度(平均误差μ的倍数) 固定 误差范围(允许误差,误差置信限)20 总体相应指标值 {}αθθθ-=≤≤121P21 精确程度 可靠程度 置信系数 可靠程度22 样本平均数 区间估计 所在区间 抽样调查资料对比全面调查资料23 总体均值 总体方差24 )1(2N n n -δ或)1(2N n n S -, )1(1)1()1(N n n P P n P P ----或, )1()1(N n n P P Z --或)1(1)1(Nn n P P Z ---25 总体的方差 要求的概率保证程度 给定的抽样误差范围26 样本方差27 固定的顺序和间隔 选择排队标志28 有关标志排队法 无关标志排队法29 抽取样本方便易行 样本单位在总体中均匀地分布30 随机原则 系统偏差31 随机原则 较好的代表性32 各系统样本内部方差的平均值sy ωα2 sy ωα2 各系统样本的内部方差 系统样本 内部各单位的差别33 各部分K 个个体 各个部分的差别 系统样本内部的差异34 单纯随机抽样 抽样原理35 总体在第i 层的权数或权重 每一层的总体单位数 总体单位数36 比较均匀 层内方差37 选择分层标志 调查的核心项目 与调查项目关系密切的项目 引起分散的主要原因 38 各个单位标志值的差异 最小 该层标志变异指标39 越少 调查费用40 调查费用 抽样误差41 层内方差 层间方差42 调查变量 层数的选择43 单纯随机抽样 全面调查44 各群内部调查变量的各个标志值 各个群内部各个标志值 总体的群45 被调查总体 均匀 总体可能取到的值46 均匀分布在总体各个部分 低于 群内部差别大而群间差别小47 各个群内部单位数相等 总体单位 群平均数Y 随机抽样估计48 总体单位数49 大样本50 总体单位 抽样群数 抽样群数51 横向 纵向52 有偏 抽样分布53 增大相关系数ρ的值,X 、Y 的相关程度54 分别比估计 组合比估计55 线性 回归方程 样本指标 总体指标56 辅助变量的选择 较好的线性 有关资料57 性质不同 密切线性关系 基期指标58 回归系数b 样本相关系数 越高59 r=0 r ≠060 等于 小于61 小于 分别回归估计 组合回归估计62 居民家计调查 居民家庭63 三阶段系统抽样 系统抽样64 抽取各阶段样本 实割实测 推算产量65 近三年粮食平均亩产 当年预计亩产 相应总体各单位的累计播种面积 累计播种面积样本单位数66 抽样误差 调查误差 实割实测67 系统抽样68 中轴对称69 多阶段抽样 系统抽样 双重抽样70 整群随机抽样 系统抽样二、单项选择题1 C2 A3 B4 D5 A6 B7 A8 B9 C 10 C 11 B 12 B 13 D14 B 15 C 16 C 17 B 18 C 19 C 20 C 21 B 22 B 23 C 24 C 25 A 26 C 27 B 28 D 29 D 30 A 31 B 32 C 33 C三、简答题1 抽样调查是建立在随机原则基础上,从总体中抽取部分单位进行调查,并依据概率估计原理,应用所得到的资料,对总体的数量特征进行推断的一种调查方法。

抽样调查——比估计

抽样调查——比估计
平均每户食品支出额 Y 平均每户消费性总支出 金额X
一个国家或地区的恩格 尔系数R
城乡居民家庭人均收入及恩格尔系数
年份 城镇居民家庭人均 可支配收入(元) 农村居民家庭人 均纯收入(元) 城镇居民家庭恩 格尔系数 (%) 农村居民家庭恩 格尔系数(%)
1978
343.4
133.6
57.5
67.7
3.比估计与简单估计的比较
(1)当n足够大时,Y 的比估计y R的方差为: 1 f 2 2 V ( yR ) (S y 2 RS x S y R 2 S x ) n 1 f 2 (2)Y 的简单估计y的方差为:V ( y ) Sy n
(1) (2)得: V ( y) V ( yR ) 1 f 1 f 2 2 2 Sy (S y 2 RS x S y R 2 S x ) n n
S d2 2 2 n S 解得:n X V2 0 ,其中n0 2d n0 Sd X V 1 1 N NX 2V
2 Sd 可以通过以往的资料估 计,
也可以通过试点调查时 抽一个容量为 n, 的样本, 1 n 2 ˆ 由s ( y R x ) i i n 1 i 1
i 1 2
10
y
i 1
i
4463 , xi 4066 , yi xi 4245
2
10
10
ˆ R
y x
i 1 i 1 10
10
i 1
i 1
i
187 1.05 178
i
2 2 2 ˆ ˆ ˆ ( y R x ) y 2 R y x R x i i i i i i 31.265 2 i 1 i 1 i 1 i 1

05比估计与回归估计

05比估计与回归估计

yr
Variable ybar yr
N 2000 2000
Mean 309409 309817
Median 308093 309806
StDev 28889 2664
SE Mean 646 60
Variable ybar yr
Minimum 228803 301659
Maximum 420038 320089
ˆ 因R的分布有偏,可通过 来构造R的置信区间。 d d y Rx . d y Rx ~ N (0, 1) 1 f 2 1 f 2 S y R 2 S x2 2 RSyx Sd n n P ( u1 / 2 w u1 / 2 ) 1 w 解不等式 u1 / 2 w u1 / 2 便可得R的置信度近似为 的置信区间。 1
ˆ -R y -R y-Rx R x x xX ˆ R ) 1 [ E ( y ) RE ( x )] 0 E(R X ˆ ) MSE ( R) E ( R R) 2 1 E ( y Rx ) 2 ˆ ˆ V (R X2 1 f 2 2 E ( y Rx ) S n
C8
例. 美国农业普查的资料
总体:3044个县(去掉了数据缺失的34个县) yi=第i个县1992年全部农场的面积(英亩); xi=第i个县1987年全部农场的面积。
Y 943336889 R 0.980404 X 962192213
从中抽取n=200的SRS,则 布如上图所示。
ˆ R y / x 的抽样分
R R
ˆ 根据上节Th5.1.1中 R 的期望、均值来证明
3. 比估计量优于简单估计的条件
Th 5.2.2 对于SRS,在 n 较大时,若 C x (2C y ) ˆ 则 V (YR ) V ( y )。其中 C x S x X 为变量 x 的总体 变异系数,C y S y Y 为变量 y 的总体变异系数。

比估计与回归估计

比估计与回归估计

Y的回归估计为: ylr y (0 X x)
当0 0时,ylr y(即回归估计为简单估计)
当0 1时,ylr y (X x)(即回归估计为差估计)
当0

y x
时,ylr
y
y(X x
x)
y x
X
RˆX
(即回归估计为比估计)
• 性质1:E(Yˆlr) Y
• 性 2 : V 质 ( y l) r 1 n f( S y 2 20 S x y 0 2 S x 2 )
2(.比1)估比计估的计性是质有:偏对的于,简但单当随n机大抽时样,,E(Rˆ) R
N
(2)
MSE
(
Rˆ )
V (Rˆ )
1 nX
f
2
i 1
(Yi RX i )2 N 1
1 f nX 2(S源自2 y2RS xy
R2Sx2)
1 nX
f
2
(
S
2 y
2RSxS y
R2Sx2)
证明:(1) Rˆ R y R y Rx
i1
i1
10
10
10
yi2 4463, xi2 4066, yixi 4245
i1
10
i1
i1

i 1 10
yi xi
187 178
1.05
i 1
10
10
10
70
( yi Rˆxi )2 yi2 2Rˆ yi xi Rˆ 2 xi2 31.265
i1
i1
i1
如果置信度1为的绝对误差限d为,
当n大时,V(YˆR)
1 n
f
Sd2,其中Sd2
1 N 1

05-第五章_比估计与回归估计

05-第五章_比估计与回归估计

ˆ ) = E( R ˆ ) - R = 2.20137 - 2.2 = 0.00137 B( R
3
ˆ 的均方误差为: 而R ˆ ) = E (R ˆ - R) 2 MSE ( R ˆ 2 - 2R ˆR + R 2 ) = E (R ˆ 2 ) - E (2 R ˆ R) + E ( R 2 ) = E (R ˆ 2 ) - 2 RE ( R ˆ) + R2 = E (R = 1 15 ˆ 1 15 ˆ 2 + R2 R - 2R å R å 15 j =1 15 j =1
= 0.0012575
ˆ 的方差为: 故R
ˆ ) = MSE ( R ˆ ) - B( R ˆ ) 2 = 0.0012556 V (R
ˆ 的值乘以 X = 5 至于比估计量 y R 的偏倚,均方误差及方差直接可将有关 R
或X
2
[
]
= 25 得到:
ˆ ) ´ 5 = 0.00685 B( y R ) = B( R ˆ ) ´ 25 = 0.03144 MSE ( y R ) = MSE ( R ˆ ) ´ 25 = 0.03139 V ( y R ) = V (R ˆ 及 y 都是有偏的,但偏倚不大,从而均方误差与方差的值 上面结果表明 R R
(
)
2
5
其中关键为求出 E y - Rx
(
) ,下面为具体过程。
2
对每个总体单元,令 Gi = Yi - RX i , i = 1,2, , N ,则
G= =
1 N 1 N
åG
i =1 N i =1
N
i
å (Y
i
- RX i )
N ö 1æ N = ç å Yi - å RX i ÷ N è i =1 i =1 ø

比估计与回归估计在分层抽样中的应用

比估计与回归估计在分层抽样中的应用

比估计与回归估计在分层抽样中的应用摘要:本文主要探讨了在分层抽样中,估计与回归估计的应用。

首先,我们介绍了分层抽样的基本概念和方法,然后详细阐述了估计和回归估计的基本原理和应用。

我们发现,在分层抽样中,估计和回归估计可以有效地提高样本的代表性和估计的准确性。

此外,我们还讨论了估计和回归估计在实际应用中可能遇到的问题和挑战,以及如何解决这些问题。

最后,我们通过实证研究验证了估计和回归估计在分层抽样中的有效性。

关键词:分层抽样;估计;回归估计;样本代表性;估计准确性;问题与挑战;实证研究。

一、引言1 研究背景和意义在研究背景和意义上,分层抽样是一种复杂而有效的抽样方法,它的主要目标是从复杂的总体中抽取出具有代表性的研究样本。

这种方法特别适用于总体情况复杂,各单位之间差异较大,单位较多的情况。

具体来说,分层抽样将总体按照某种共同特性或属性划分为多个较小的子组或层,再从每个层内独立随机抽取样本。

估计与回归估计作为统计学中的核心概念,其主要目标是根据样本数据来估计或预测一个未知的总体参数。

在分层抽样的背景下,估计和回归估计的应用变得尤为重要。

因为通过这两个方法,我们可以有效地提高样本的代表性和估计的准确性,进而更准确地对总体进行推断和预测。

然而,在实际应用中,我们可能会遇到一些问题和挑战,如如何选择合适的分层变量,如何处理层间异质性等问题。

因此,如何解决这些问题,优化估计和回归估计在分层抽样中的应用,是本研究的重要任务。

最后,我们将通过实证研究来验证估计和回归估计在分层抽样中的有效性。

2 研究目的和方法2.1研究目的2.1.1对比估计与回归估计在分层抽样中的优劣:通过对比研究,明确哪种估计方法在分层抽样中更有效,或者在不同情况下哪种方法更适用。

2.1.2探讨分层抽样中估计与回归估计的应用:研究如何在分层抽样中应用比估计和回归估计,以及如何根据实际情况选择合适的估计方法。

2.1.3为分层抽样中的估计方法提供理论支持和实践指导:通过对比研究,为分层抽样中的估计方法提供理论依据和实践指导,帮助相关领域的研究者和实践者更好地理解和应用这些方法。

比估计和回归估计(抽样)

比估计和回归估计(抽样)
2
ˆ ˆ V ( Y ) V ( y ) V ( R ) 2 R R (cv ) 2 2 2 Y Y R 1 f 2 2 (C y C x 2C yx ). n
2.估计量方差
例:对上例中的人为总体,计算 得:
2 2 Sy 23.6, S x 5.2, S yx 11.0, N 6
Σ
75.00
165.00
33.0206
165.1029
(1)根据总体单元值标值可得:
X X i 30, X 5; Y Yi 66, Y 11; Y 11 R 2.2 X 5
(2)根据全部可能样本资料计算 估计量的均方误差、方差和偏倚
15 1 33 . 0206 ˆ) R ˆ E(R j 15 j 1 15
x
3.75 4.25 4.50 4.25 4.50 5.00 4.75 5.00 5.50 5.50 5.00 5.25 5.75 5.75 6.25
y
8.25 9.25 10.00 9.50 10.25 11.25 10.25 11.00 12.00 12.25 10.75 11.5 12.5 12.75 13.50
0.0012556
(3)总体均值的比估计量的均 方误差、方差和偏倚
ˆ ) 5 0.00685 B( y R ) B( R ˆ ) 25 0.03144 MSE ( y ) MSE ( R
R
ˆ ) 25 0.03139 V ( yR ) V (R
ˆ 和y 都是有偏的, 可见,R R 但是偏倚不大,均方误差 和方差的值相差很小。
2.20137 ˆ ) E(R ˆ) R B( R 2.20137 2.2 0.00137

第五章比率估计与回归估计

第五章比率估计与回归估计

17

三、 β 取样本回归系数情形
若β 需根据样本确定,一个合理的选择是取β 为样 本回归系数
n
b
此时 Y 的回归估计量
s yx
2 sx

( y y)( x x)
i 1 i i
( xi x) 2
i 1
n
y lr y b( x X )
为一复杂估计量,不再具有无偏性。
18

四、回归估计与比率估计及简单估计的大样本比较
对于大的样本量,总有
V ( y lr ) V ( y )
这就是说在大样本下回归估计总是优于简单估计,仅在ρ =0时两 者效果相同。
V ( y lr ) V ( y R ) 的充分必要条件为
2 2 2 SY (1 2 ) S Y +R 2 S X 2R SY S X

3
第二节

比率估计
ˆ y y 为样 R x x
一、比率估计量 设对有两个调查变量Y 和X 的总体进行简单随机抽样 ,分别以y, x表示样本总值 ,以 本比率 ,用
y, x 表示样本均值,以
ˆ 作为总体比率R的估计称为的比率估计 。 R
比率估计量除了使用调查变量样本信息外,还要使用辅助变量 总体信息与样本信息,而且是非线性估计量。这类估计量称为复杂 估计量。由于比率估计量使用的信息比简单估计量多,因而有可能 比简单估计量有更高的精度。同时由于比率估计量是非线性估计量, 因而对其性质的研究比对简单估计量要复杂得多。
i 1 i i
12
ˆ ˆ YR = R X = 18459 ×86436=97573.52(万元) 16352
ˆ N (1 f ) ( yi Rxi ) 2 ˆ v(YR ) i 1 n n 1

抽样调查-比率、回归与差值估计培训课件

抽样调查-比率、回归与差值估计培训课件

【例4.2】某县在对船舶调查月完成的货运量
进行调查时,对运管部门登记的船舶台帐进行整理后 获得注册船舶2860艘,载重吨位154626吨。从2860艘 船舶中抽取一个n=10的简单随机样本,调查得到样本 船舶调查月完成的货运量及其载重吨位如表(单位: 吨),要推算该县船舶调查月完成的货运量。
i
1 780
【例4.6】(续例4.4)利用回归估计量估计该市港口
生产单位1997年完成的吞吐量。
解:样本回归系数:
h=1,非国有
1.07017
h=2,国有 0.856402
则按分别回归估计量估计:(见P85)
按联合回归估计量估计:(见教材P86)
从本题看,联合回归 估计量比分别回归估计 量要优一些!
§4.4 差值估计
0.034158
分别回归估计 270556.3 9480.11
0.035039
联合回归估计 271753.4 9238.96
0.033998
差值估计
271910.0 9269.11
0.034089
结果分析
1.本题中,五种估计量的精度非常接近,联合回归 估计量稍好些; 2.对于简单随机抽样,简单估计、差值估计是无 偏的,比率估计、回归估计是渐进无偏的; 3.当样本量较小时,比率估计、回归估计的偏 倚是不能忽视的; 4.当辅助变量为调查指标的最近普查值时,可 以考虑使用差值估计。
总体均值 的估计:
总体总量 的估计:
当各层的回归系数为事先给定的常数时, 分别回归估计量是无偏的。 其方差为:
其中 是第h层的回归系数
并且当
时,
达到最小,即
通常 未知,可用回归系数 作为 的估计:
注意
(1)分别回归估计量是有偏的,但当每一层的样 本量 都很大时,估计的偏倚可以忽略,其方差近 似为:

05第五章 比估计与回归估计

05第五章  比估计与回归估计

h
h h
h h
L y h ˆ X ˆ X Y Y ( 已知) RS h Rh x h h h L
h

ˆ Y的 Y 在分层随机抽样中,若每层的样本量 n 都较大,则 为 h RS 近似无偏估计。其方差为:
( 1 f ) 2 2 2 2 h ˆ V ( Y ) N ( S R S 2 R S S ) RS h yh h xh h h yh xh n h h

量的方差(或方差估计量)。 二、联合比估计
ˆ N y Y h h st
h L
联合比估计是先按分层随机抽样公式估计Y和X:
ˆ N x X st h h
h L

ˆ R ˆX 然后用这两个量的比及已知的X对Y作估计:Y RC c
Yˆst 其中: ˆ Rc Xˆ st
ˆ R ˆX Y RC c
L


当各层的总体方差未知时,方差的估计量:
L
( 1 f ) 2 ˆ 2 2 2 h ˆ ˆ) ˆ V ( Y N ( s R s 2 R r s s ) RS h yh h xh h h yh xh n h h 1 2 Y Y的估计量的方差(或方差估计量)乘以 N 即可得出 的估计
N
1 f 2 2 2 ( S R S 2 R S S ) y x y x n
2 ˆ 22 ˆ ˆ V ( Y ) N V ( Y ) N X V ( R ) R R
2 N ( 1 f ) i 1 n N 1 i
(y Rx )
i
N
2
2 N ( 1 f ) 2 2 2 ( S R S 2 R S S ) y x y x n

Chap5 比估计与回归估计 (2)

Chap5 比估计与回归估计 (2)
和y分别用进行估计称为比比率估计量可用样本的比值当n很大时代入上式分母中有对每个总体单元令和样本均值分别为因而所以当n很大时此方差的估计量可采用53交通运输统计中有三个重要的指标即运量周转量与平均运距其中平均运距是总周转量除以运量所得的商
主要内容: 5.1比估计 5.2回归估计 5.3分层比估计与回归估计
ˆ ˆ s(Ylr ) v(Ylr ) 11549461 339.8450 .
s xy
7052316 . 109.19455 1.076417 ( 100.96622 111.01109 ) 687
作为比较,Y的简单估计量为
2 ˆ ) N 2 v( y) N (1 f ) s 2 v(Y y
均运距,在总体中用简单随机抽样抽取32辆货
车,记录每辆车在一个月内的运量xi (单位:吨)
与周转量yi (单位:吨公里),如表所示,试估计
平均运距R并给它的90%的置信区间。
解: y
i 1
32
i
295500
i
x
i 1
32
i
5974
x
y
y
i 1
32
x
i 1
32
i
32
9234 375 .
近似为理论上的最小值,即 1 f 2 MSE ( y lr ) V ( y lr ) S Y (1 2 ) n 2 2 SY (1 ) 可用下式进行估计: 1 n n 1 2 2 2 se ( yi y ) b( xi x ) n 2 (s y bsxy ) n 2 i 1 V ( ylr ) 的一个近似估计式为 1 f
1 f 2 SY (1 2 ) n
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章 比估计与回归估计
前面讨论的简单随机抽样和分层抽样,我们所关心的参 数都是单指标的,给出的估计量也是线性形式。这一章我们 将要讨论比较复杂的情况,我们关心的参数不再是单指标的 而是两个或两个以上的指标。此时,遇到的统计量不再是线 性形式,往往呈现出非线性形式,比如两个变量之比,或呈 现变量之间的回归关系。
Rˆ y
y
x X (1 x X )
X
利用Taylor展开式,有


y x

y X
1
x
X X



xX X
2



y X
1
xX X



x
X X
2

(5.7)
当 n 相当大时, x 与 X 相当接近,而 X 是常数,又 y 是Y 的
(5.12)
2SY 2 SY Y 2 CY
(5.12)表明,如果变量X与Y正相关,且相关程度非常密 切的话,那么比估计的精度高于简单随机抽样的精度。如果
相关程度不那么密切( CX 2CY ),此时已知的X信息并 没有较多地提供Y的信息,借助X来推断 Y 也许会“帮倒忙”
假如X与Y是负相关,则更不能采用比估计方法,此时应采用 所谓乘积估计,即:
村i 产量yi (吨) 面积xi (亩)
村i 产量yi (吨) 面积xi (亩)
1
112.0
302
2
129.1
361
3
208.2
608
4
158.5
444
5
110.2
298
6
123.3
349
7
157.7
416
8
154.2
428
9
98.7
258
10
112.7
347
11
125.5
351
12
60.3
158
13
假如 X 或 X 已知,总体平均数 Y 与总体总和 Y 的比估计
量定义为:
yR


X

y x
X

y x
X
(5.5)
yR


X

y x
X

y x
X
(5.6)
通常的比估计是指 (5.5) 式与 (5.6) 式,而 Rˆ 则称为比值R 的
估计。
由 (5.5) 式与 (5.6) 式可知, yR与 yR 的习性主要依赖于估计量 Rˆ ,因此在不少场合,我们常用 Rˆ 来说明。
当 n 充分大时,
Var( yR )
1 f n
( SY2

R2
S
2 X
2RSXY )

Var( y) 1 f n
SY2
欲使 Var( yR ) Var( y) ,仅需
R
2
S
2 X
2RSXY
0

R2
S
2 X
2R SX SY
0

RSX 1 SX X 1 CX
尽管x, y 分别是X ,Y 的无偏估计,由于 Rˆ 的非线性形式,因 此 Rˆ 关于 R 是有偏的,从而 yR , yR 关于Y ,Y 也是有偏的。
一个合理的估计量,应该随着样本容量 n 的增加,估计量的 期望与参数之差应该越来越小并渐渐趋于零,即“渐近无偏”
比估计是否渐近无偏呢?
将比估计Rˆ y x 表示为:
设总体分为 k 层,第 h 层的样本均值记为yh , xh,在该层 中 Yh与Yh的比估计记为 yRh , yRh,又记X h和X h为第 h 层中指标
X的平均数与总和, SY2h , SX2h与 SYXh 分别为该层中Y , X 的方差 和协方差,若 S 换为 s ,Y , X换为 y, x ,则显然表示该层样本
§1 比估计及其性质
设有一个二元变量的总体 ( X ,Y ):( X1,Y1 ),( X2 ,Y2 ), ,( X N ,YN ) 有 4 个参数是我们所熟悉的:
X、Y ————指标 X、Y 的平均数
S
2 X

1 N 1
N
(Xi
i 1
X )2
SY2

1 N 1
N
(Yi
i 1
Y )2
yRS 是Y 的渐近无偏估计量:
k
E( yRS ) E( yRh ) Y
(5.17)
h1
各层的抽样又是独立进行的,由(5.10)式,可以近似得到 yRS
的方差或均方误差,当各个 nh都相当大时:
MSE( yRS ) Var( yRS )

k
N
2 h
(1

h1
nh
fh ) (SY2h
S
2 X
2RSXY )
(5.8) (5.9) (5.10)
公式(5.8)、(5.9)、(5.10)为我们提供了Var(Rˆ ),Var( yR ),Var( yR )
的估计量的形式。具体计算时,只要将
S
2 X
,
SY2
,
S
XY
,
R分别换为
sX2 , sY2 , sXY , Rˆ 即可。我们将由此得到的估计量分别记为:
v( y)

N 2 (1 n
f
)
s
2 y
14734359
显然,yR的方差远远小于 y 的方差。理由很清楚!小麦亩产
量与土地拥有量呈现正相关,且相关程度相当密切,因此,
在抽样调查中对每个村了解有关产量和土地亩数,利用已知
该县土地的固有已知数,能比较精确地推断总产量。事实上
在实际操作中人们正是这样去做的!
105.7
308
14
80.5
217
15
163.0
492
16
98.7
280
17
137.8
378
18
141.2
386
19
152.5
428
20
142.5
390
21
136.7
376
22
153.2
432
23
93.0
261
24
179.8
483
每个村有两个指标:面积 xi和产量 yi ,即:( xi , yi )

i 1
1
1
(5.2)


N
(Xi

X
)

2

N
(Yi

Y
)

2
i1
i1

如果简单随机样本为( xi , yi ) (i 1, 2, , n) ,则Cov( X ,Y )
及 的估计为:
S xy

1 n1
n i 1
( xi

x)( yi

y)
(5.3)
MSE( yRc ) Var( yRc )

k h1
Nh2(1 nh
fh ) (SY2h

R2
S
2 Xh
2R
SYXh )
(5.23)
其中R Y X 为总体的比值。
(5.22)表明, yRc 是 Y 的渐近无偏估计,(5.23)与(5.18)非常相 似,唯一不同的是在(5.18)中用的是各层的比值 Rh ,而(5.23) 中用的是总体的比值 R 。
的方差和协方差。
我们可以得到有关总体 Y 和 Y 的分别比估计为:
yRS

k
Wh yRh
h1

k
Wh
h1
yh xh
Xh

1 N
k h1
yh xh
Xh
(5.15)
yRS

N

yRS

k h1
yh xh
Xh

k h1
yRh
(5.16)
由上节可知,各层中的 yRh 是Yh的渐近无偏估计量,因此
v( Rˆ )
1 f nx 2
( sY2

Rˆ 2
s
2 X
2Rˆ sXY
)
v(
yR
)

1
n
f
( sY2


2
s
2 X
2Rˆ sXY )
v( yR )

N 2 (1 n
f
) (sY2


2
s
2 X
2Rˆ sXY
)
那么, R,Y ,Y 的置信水平为(1 )的置信区间分别为:

Rh2
S
2 Xh
Rh
2RhSYXh )
Yh Xh
(5.18)
(5.17), (5.18)告诉我们,即使每层 nh相当大,但如果层数k
比较大,由于误差的积累,yRS 产生的偏倚与误差可能相当 大。
2、联合比估计
将 X ,Y 分别进行分层估计,然后相比即得总体的两个
指标平均数之比的估计:
Rˆ c
n
( xi x)( yi y)
ˆ
i 1 1
(5.4)
1


n
( xi

2 x)

n
(
yi

2 y)
i1
i1

在讨论比估计之前,先考察总体的两个平均数之比,即
相关文档
最新文档