比估计与回归估计

合集下载

抽样技术第3章比估计和回归估计

抽样技术第3章比估计和回归估计

标准差为:
总结:估计域均值是比估计的一个特例,因为 域中的样本容量随样本而变化。如果SRS中域 的样本容量足够大,我们可以用SRS公式来推 导域均值。总体总值估计取决于域的总体容量 是否已知。如果 已知,被估计总体总值等于 。如果未知,则为域中观测值定义一个新变 量 ,而不在域中的观测值为零;这样用估 计域总值。这部分的结论仅针对于SRSs。
3、域估计
经常我们需要对子样本的单独估计;这些 子样本被称为域或子域。比如我们需要对9 月18号飞往纽约的旅客进行一次SRS,然 后估计滞留时间超过1周的国外旅客占所有 国外旅客的比例。对于这样一个调查,存 在有两个研究域:国内和国外旅客。我们 不知道总体中每一个人属于哪个域直到他 被抽取。这样,每一次SRS中,落入每一个 域的旅客数目是一个随机变量,直到调查 设计后才知道具体值。
比较
比估计和回归估计都提出一种方法——利 用与我们感兴趣的变量相关的辅助变量。 我们已知y与x是相关的,且知道 与 之间的 差距,所以我们利用这个信息来调整 并希 望来提高估计的精确度。比估计和回归估 计的估计量来自于我们希望用来描述数据 的模型,但是估计量的随机理论特性不取 决于这些模型。
比估计和回归估计量是一般回归估计量的 特例。总体总值的三个估计量:
比估计中,用于近似MSE的方法也可以用于
回归估计中。令
这样,
利用关系 可得到:
MSE的近似值非常小,如果: 样本容量n足够大; 抽样分数n/N足够大; 足够小; x和y的相关系数R接近于+1或者-1。 标准差可以通过计算样本残差得到。
标准差可以通过计算样本残差得到。令
2.2、差异估计
且,它们的比例为
在比估计的最简单应用中,进行一个容量 为n的简单随机抽样(SRS),x和y的信息都 被用于估计B,,。。

第五章比率估计与回归估计

第五章比率估计与回归估计
比率估计量是有偏估计量,但当样本量增大时其偏倚 将趋于零 。
理论上可以证明,R?, yR ,Y?R 分别为 R,Y ,Y 的近似无
偏估计量,而且对于比率估计量,其方差主要取决于 Yi 与 RX i 之间的差异,当 Yi ? RX i 时,估计量方差将很小。 换言之,比率估计量将有很高的精度。这告诉我们,只 有当两个变量大致成正比例关系时,应用比率 估计量才能使估计精度有较大改进。
5
? 三、 比率估计量方差的估计与置信区间
对于一般的n,比率估计量呈右偏分布,只有
当n>30,
C
<0.1,
x
C
y
<0.1这些条件同时满足时才
能直接用正态分布构造置信区间。 R 的置信区间为
[
]
[ R? ? u? se(R?), R? ? u? se(R?)]
2
2
其中 u? 是标准正态分布的上α /2分位点,0<α <
? 基于这种考虑利用已知的辅助变量信息构造比率估计量就 可使估计精度加以改进。
3
第二节 比率估计
?
一、比率估计量
设对有两个调查变量Y 和X 的总体进行简单随机抽样 ,分别以y,
x表示样本总值 ,以
y , x表示样本均值,以 R? ? y ? y 为样 xx
本比率 ,用 作R? 为总体比率R的估计称为的比率估计 。
精度有较大提高。若
CY

C
,则只需当ρ
2
第一节 问题的提出
? 在许多实际问题中常常涉及两个调查变量(指标) Y 和X 。 对于包含个抽样单元的总体除了对总体信息进行估计外,常 常要估计总体比率R。总体比率在形式上总是表现为两个变 量总值或均值之比。 在涉及两个变量的抽样调查中,有两种情况需要应用比率 估计量。一种情况是利用双变量样本对总体比率进行估计需 应用比率估计量,此时两个变量均为调查变量。另一种情况 是一个变量为调查变量,另一个变量表现为与调查变量有密 切关系的辅助变量,在对调查变量总体总值、总体均值等目 标量进行估计时,利用已知的辅助变量信息构造比率估计量 可以改进估计的精度。

抽样理论与方法:比估计与回归估计

抽样理论与方法:比估计与回归估计
1.假如市场上有奶酪出售 ,您会不会购买? ( 1 )会 ( 1 ) 4 ~ 5元 (2)不会 (2) 6 ~ 8元 (3) 9 ~ 10元 (4) 11 元以上 2.若会购买,您所能承受 的每盒最高价格范围是 :
要估计会购买的人中,能承受的最高价格在4 ~ 5元者所占的比例, 可设总体有N人, 1,第i人会购买奶酪 xi 0,其他 1,第i人会购买且能承受的最高价格范围是4 ~ 5元 yi 0,其他 N
N 1
1 f 2 2 2 ( S 2 RS R S y xy x ) 2 nX 1 f 2 2 2 ( S 2 R S S R S y x y x ) 2 nX
证明:
y y Rx (1) R R R x x 当n大时, xX

y Rx y Rx E(R R) E( ) E( ) x X E(y R x ) Y RX 0 X X
2 ( Y Y ) i i 1
N 1
(3)比估计的方差估计
1 f 2 2 2 ˆ ˆ MSE ( R) V ( R) ( S 2 RS R S y xy x ) 2 nX
1 f 2 nX
(Y
i 1
N
i
RX i ) 2
N 1
ˆ )的渐近无偏估计为 n 当X已知时,V ( R 2 ˆ ( y R x ) i i 1 f 1 f 2 i 1 ˆ) ˆs R ˆ 2s 2 ) v ( R ( s 2 R 1 y xy x nX 2 n 1 nX 2
N
N 1
MSE ( R ) V( R )
N


1 f nX
2
2 ( Y RX ) i i i 1

第四章比估计与回归估计

第四章比估计与回归估计

6、相对方差、相对协方差
1 2 2 2 2 (Yi RXi ) SY R S X 2RSxy N 1 2 2 2 Y (CY C X 2C XY )
ˆ ) V (Y ˆ ˆ V ( Y ) V ( R ) 2 R R (cv) 2 2 2 Y Y R 1 f 2 2 (CY C X 2C XY ) n
二、方差估计及置信区间
1、方差估计
1 f 2 ˆ ˆ 2 s 2 2R ˆs ) v1 ( R ) ( s R y x xy 2 nX 1 f 2 ˆ ˆ 2 s 2 2R ˆs ) v2 ( R ) ( s R y x xy 2 nx
两者均是有偏估计量
很难比较两者优劣
y 109.19455 x 100.96622 2 2 s y 8896.8663 s x 7673.0140 s yx 8259.3624
已知上一年全系统工资总额(X)为 70523.16万元。试估计当年全系统的工资 总额及估计的近似标准差(P132) 。
第三节 回归估计
一、定义
2、置信区间
当 n 30, cv( x ) 0.1, cv( y ) 0.1 时,
R ˆ u ˆ), R ˆ u v( R ˆ) v( R
当上述条件不满足时,
ˆ [(1 u 2 c ) u (c 2 c 2 2c ) u 2 (c 2 c 2 c 2 ) ] R yx y x xy y x xy
2 W ˆ 2 h (1 f h ) v(Ylrs ) (nh 1)s yh (1 rh2 ) nh (nh 2)
联合回归估计:在分层随机抽样中,先 对 Y 及 X 作分层简单估计,再 Y 与 Y 作联合回归估计。

抽样调查——比估计

抽样调查——比估计
平均每户食品支出额 Y 平均每户消费性总支出 金额X
一个国家或地区的恩格 尔系数R
城乡居民家庭人均收入及恩格尔系数
年份 城镇居民家庭人均 可支配收入(元) 农村居民家庭人 均纯收入(元) 城镇居民家庭恩 格尔系数 (%) 农村居民家庭恩 格尔系数(%)
1978
343.4
133.6
57.5
67.7
3.比估计与简单估计的比较
(1)当n足够大时,Y 的比估计y R的方差为: 1 f 2 2 V ( yR ) (S y 2 RS x S y R 2 S x ) n 1 f 2 (2)Y 的简单估计y的方差为:V ( y ) Sy n
(1) (2)得: V ( y) V ( yR ) 1 f 1 f 2 2 2 Sy (S y 2 RS x S y R 2 S x ) n n
S d2 2 2 n S 解得:n X V2 0 ,其中n0 2d n0 Sd X V 1 1 N NX 2V
2 Sd 可以通过以往的资料估 计,
也可以通过试点调查时 抽一个容量为 n, 的样本, 1 n 2 ˆ 由s ( y R x ) i i n 1 i 1
i 1 2
10
y
i 1
i
4463 , xi 4066 , yi xi 4245
2
10
10
ˆ R
y x
i 1 i 1 10
10
i 1
i 1
i
187 1.05 178
i
2 2 2 ˆ ˆ ˆ ( y R x ) y 2 R y x R x i i i i i i 31.265 2 i 1 i 1 i 1 i 1

二重分层抽样概述

二重分层抽样概述

End!
26
4 、分层抽样常比回归和比率均值有特殊的优越 性,特别是在调查变量与辅助变量为非线性关 系时,按比例分层能得到更大的得益;若分层 变量不是数值型时,分层方法仍然可以使用, 而回归和比估计方法则不能用。 5 、如果辅助变量的总体均值是已知的,则回归 和比估计可以在独立于辅助变量的 n 次抽选的 样本上进行,而在分层抽样中,样本 n 必须是 第一重样本n′的子样本。
i
(x
i 1
x)2
性质1: YˆlrD 是一个有偏估计量,其偏倚随着 样本量的增大而缩小。当地二重样本的样 ˆ y b( X ' x ) 是近似无偏 本量足够大时, Y lrD 估计量。即
ˆ )Y E (Y lrD
当n充分大时
ˆ )Y E (Y lrD
性质2 若n′和n均为简单随机样本,则估 计量的方差为



第二节 为分层的二重抽样

一、二重分层抽样概述 二、估计量及其性质

一、二重分层抽样概述

在分层抽样中,我们要求总体各层的 层权应事先已知,如果层权未知或不 能事先确定,则分层抽样在精度上的 得益可能会在很大程度上被抵消掉, 此时,选择二重分层抽样可以较好地 解决层权问题。
符号说明
:第一重样本第h层的单元数 nh :第二重样本第h层的单元数 N Wh h :总体单元第h层的权重 N :第一重样本第h层的权重 nh h
第一步:从总体的中随机抽取第一重样本,对于 第一重样本,仅观测辅助变量信息,用辅助变 量的样本均值估计其总体均值。 第二步:从第一重样本中随机抽取出第二重样本, 对于第二重样本,观测目标变量与辅助变量, 并计算样本回归系数,构造回归估计。 二重回归估计可以采用多种形式,我们这里只 涉及一元线性回归估计。

简单估计、比估计和回归估计效率的实证检验

简单估计、比估计和回归估计效率的实证检验

计的目标值是某指标 Y 的总量或均值,但要有另一与 Y 关系密
切的指标 X 作为辅助变量,利用辅助变量的信息可以改进估计
的精度。总体均值 Y 的比估计定义为:
Байду номын сангаас
= y R

R= X
yX x
∑ ∑ (其中
y
=
1 n
n i =1
yi , x
=
1 n
n i =1

xi , R
=
y x

∑ 方差为:
V
(
y
R
)
计从实践的角度进行对比和实证检验。
二、 预备知识
(一)简单随机抽样
一般的,对于一个大小为 N 的总体,抽取一个样本量为 n 的样本 . 考虑放回情形,若全部可能的 CNn 个样本每个被抽中 的概率都相等,都等于 1/ CNn ,则这种抽样称为不放回简单随 机抽样。考虑放回情形,此时样本中的单元有可能重复出现,
10
5
356
1030
14
2
940
640
15
4
423
960
21
3
610
730
27
2
345
620
28
4
488
970
31
4
418
1000
34
3
563
840
∑ x(∑ y)
37
9400
∑ x2(∑ y2)
133
8293800
(三)每月每户食物消费支出均值的简单估计
每月每户食物消费支出均值的估计量为:
∑ =y
ylr 的 1-α 的近似置信区间为:

比估计与回归估计在分层抽样中的应用

比估计与回归估计在分层抽样中的应用

比估计与回归估计在分层抽样中的应用摘要:本文主要探讨了在分层抽样中,估计与回归估计的应用。

首先,我们介绍了分层抽样的基本概念和方法,然后详细阐述了估计和回归估计的基本原理和应用。

我们发现,在分层抽样中,估计和回归估计可以有效地提高样本的代表性和估计的准确性。

此外,我们还讨论了估计和回归估计在实际应用中可能遇到的问题和挑战,以及如何解决这些问题。

最后,我们通过实证研究验证了估计和回归估计在分层抽样中的有效性。

关键词:分层抽样;估计;回归估计;样本代表性;估计准确性;问题与挑战;实证研究。

一、引言1 研究背景和意义在研究背景和意义上,分层抽样是一种复杂而有效的抽样方法,它的主要目标是从复杂的总体中抽取出具有代表性的研究样本。

这种方法特别适用于总体情况复杂,各单位之间差异较大,单位较多的情况。

具体来说,分层抽样将总体按照某种共同特性或属性划分为多个较小的子组或层,再从每个层内独立随机抽取样本。

估计与回归估计作为统计学中的核心概念,其主要目标是根据样本数据来估计或预测一个未知的总体参数。

在分层抽样的背景下,估计和回归估计的应用变得尤为重要。

因为通过这两个方法,我们可以有效地提高样本的代表性和估计的准确性,进而更准确地对总体进行推断和预测。

然而,在实际应用中,我们可能会遇到一些问题和挑战,如如何选择合适的分层变量,如何处理层间异质性等问题。

因此,如何解决这些问题,优化估计和回归估计在分层抽样中的应用,是本研究的重要任务。

最后,我们将通过实证研究来验证估计和回归估计在分层抽样中的有效性。

2 研究目的和方法2.1研究目的2.1.1对比估计与回归估计在分层抽样中的优劣:通过对比研究,明确哪种估计方法在分层抽样中更有效,或者在不同情况下哪种方法更适用。

2.1.2探讨分层抽样中估计与回归估计的应用:研究如何在分层抽样中应用比估计和回归估计,以及如何根据实际情况选择合适的估计方法。

2.1.3为分层抽样中的估计方法提供理论支持和实践指导:通过对比研究,为分层抽样中的估计方法提供理论依据和实践指导,帮助相关领域的研究者和实践者更好地理解和应用这些方法。

比估计与回归估计

比估计与回归估计

L
ˆ YRS
L yh ˆ =∑ X h = ∑ YRh h xh h
L
13
在分层随机抽样中, 在分层随机抽样中 , 若每层的样本量 n h 都 ˆ 较大, 的近似无偏估计。其方差为: 较大,则 YRS 为Y的近似无偏估计。其方差为:
ˆ ) ≈ ∑ N 2 (1 − f h ) ( S 2 + R 2 S 2 − 2 R ρ S S ) V (YRS h yh h xh h h yh xh nh h
3
在实际工作中, 在实际工作中 , 为了充分发挥比估计的优越 在应用比估计时应考虑两条: 性,在应用比估计时应考虑两条: 一是选与调查变量有较密切的正相关关系的 变量作为辅助变量。 变量作为辅助变量 。 因为如果辅助变量与调查变 量的关系不密切, 各自独立变化, 量的关系不密切 , 各自独立变化 , 则对比估计起 不了应有的辅助作用。 不了应有的辅助作用。 二是样本容量要比较大。 二是样本容量要比较大 。 因为比估计是有偏 倚的,只有当样本容量n比较大时, 倚的,只有当样本容量n比较大时,其偏倚才能比 较小,比估计才更加有效。 较小,比估计才更加有效。
18
回归估计的主要特点有: 回归估计的主要特点有 主要特点 回归估计充分利用了有关的辅助变量资料以有 效地提高估计的精度; 效地提高估计的精度; 回归估计中要求辅助变量的总体均值或总和事 先已知; 先已知; 回归估计一般只适用于有限总体, 回归估计一般只适用于有限总体,因为只有有 限总体才可能计算出辅助变量的总体均值和总和; 限总体才可能计算出辅助变量的总体均值和总和; 回归估计量一般优于比估计量和简单估计量。 回归估计量一般优于比估计量和简单估计量。
第五章
第一节 第二节 第三节 第四节

简单估计、比估计与回归估计的效率比较

简单估计、比估计与回归估计的效率比较

简单估计、比估计与回归估计的效率比较作者:田兵来源:《牡丹江师范学院学报(自然科学版)》2018年第03期摘要:比较简单随机不放回抽样下,简单估计、比估计和回归估计三种估计量的效率.简单估计是无偏的,比估计和回归估计是有偏的;在大样本情况下(B≠R),回归估计的精度最高,简单估计的精度最低.关键词:简单估计量;比估计量;辅助信息;回归估计量[中图分类号]O212 [文献标志码]AAbstract:Compare the efficiencies of simple estimator,ratio estimator and regression estimator under SRSWOR. Simple estimator is unbiased, ratio estimator and regression estimator are biased. The efficiency of regression estimator is highest, the efficiency of simple estimator is lowest under big sample (B≠R).Key words:simple estimator; ratio estimator;auxiliary information;regression estimator简单估计、比估计和回归估计是经常用到的对总体有关参数进行估计的三种估计量.简单估计形式简洁,具有无偏性.比估计依据调查变量与辅助变量间的比率对总体有关参数进行估计和推断.虽然比估计是有偏的,但是因为它除了使用调查变量样本信息外,还充分利用辅助变量携带的信息来估计总体参数,所以比估计往往比单纯使用调查变量资料的简单估计有更高的精度.回归估计根据样本各单元调查变量与辅助变量之间的关系构建回归方程,并根据回归系数对总体有关参数进行估计.回归估计是有偏的,只有在大样本情形下,回归估计量优于简单估计和比估计,缺点是计算方法较为复杂.4 结论数值模拟表明,在简单随机不放回抽样下,简单估计是无偏的,比估计和回归估计是有偏的;在大样本的情况下(B≠R),回归估计的精度最高,简单估计的精度最低.参考文献[1] Zaizai Yan,Bing Tian. Ratio method to the mean estimation using coefficient of skewness of auxiliary variable[J]. ICICA,Part II,CCIS,2010,106:103-110.[2] 冯士雍,施锡铨.抽样调查—理论、方法和实践[M].上海:上海科技技术出版社,1994.100-152.[3] 薛雨霞,闫在在.有辅助信息下总体均值的一类新比估计量[J].内蒙古工业大学学报,2015,34(1):1-5.[4] 卢静莉.多辅助变量线性组合的回归估计[J].统计与信息论坛,2010,25(5):14-17.[5] 张格亮,李昕.风险投资项目评估中几种数学方法评析. [J].牡丹江师范学院学报:自然科学版,2012(1):1-4.[6] 孙耀东.含双辅助变量的有限总体均值的回归估计[J].内蒙古农业大学学报:自然科学版,2013,34(6):169-173.[7] 刘常彪,李臻臻.关于泊松分布高阶矩的一些研究. [J].牡丹江师范学院学报:自然科学版,2014(2):5-6.[8] 刘媛媛.比估计方法下Eichhorn and Hayre模型的参数估计[J].内蒙古师范大学学报,2014,43(6):689-695.[9] 薛雨霞. 关于比率型估计量和AP设计下包含概率研究[D].呼和浩特:内蒙古工业大学,2015.[10] 侯瑞环.含辅助信息的最小非参似然比估计和检验[J]. 四川师范大学学报:自然科学版,2016,39(1):59-64.编辑:吴楠。

回归估计量

回归估计量

方差公式右端实际上是 的二次三项式,又由于 2 前的系
数为SX2 是个正 数,因此,只要适当选取 就可使Var( ylr ) 达
到最小值,利用高等数学的知识,可得使 Var( ylr ) 达到最小
值的 应为: N
min

(Yi
i 1 N
Y )( X i X ) ( Xi X )2
样本回归系数
l

s yx sx2

3213.110 9498.505
0.3383
小麦产量的估计为: ylr y l ( X x )
130.625 0.3383(379.7847 364.625) 135.7535(吨)
小麦总产量的估计为:
y%lr N ylr 976 135.7535 78194(吨)

v(
ylr
)

1 f n(n 2)
(n

1)(
s
2 y

l syx
)
多变量回归估计
当回归估计可以利用的辅助变量不止一个,就 会用到多变量回归估计。
处理这类问题常用的方法有
Des Raj的加权法 B Ghosh的普通多元回归法
各种估计量的精度比较
1. n足够大的情形
➢ 在大样本下,回归估计总是优于简单估计 ➢ 在大样本下,回归估计总是优于比估计。
➢ 总体总量的回归估计量定义为:
Yˆlr Nylr
回归估计量的特例
当 0 时
ylr y 是简单估计量
当 Rˆ y 时
x
ylr yR 是比率估计量
当 1 时
ylr y ( X x) X ( y x) 称为差估计量

第五章-比率与回归估计

第五章-比率与回归估计

大致成正比例关系时,应用比率估计量才能使
估计精度有较大改进.
若分别以SY2
,
S
2 X
表示两个变量的总体方差,
以SYX表示总体协方差, 表示总体相关系数
SY2
1 N-1
(Yi Y )2
S
2 X
1 N-1
(Xi X )2
SYX
1 N-1
(Yi Y )( Xi X )
SYX
SY SX
X 或总体总值X已知,可以利用辅助变量构造
调查变量总体均值,总体总值Y的比率估计量为:
-
Y
yR
RX
y x
X,
YR
RX
y x
X
N
yR
比率估计量 R, yR ,Y R 中任何两个之间都仅差一个
常数,性质相同.
二、比率估计量的偏差与均方误差
比率估计量是有偏的,但当样本量增大时其偏 差将趋近于零。
下表是容量为5的总体,列出了两个变量的值, 计算全部可能的n=3的简单随机样本指标。
y
13.7967,
x1
24.43899,
x2
38.4444,
s
2 y
35.4958,
s2 x1
74.6789,
s2 x2
174.9671, syx1
42.26167, syx2
46.5118
1 f 0.0522332,现种植面积和良种比例为辅助变量对 n
皮棉产量进行比率估计。
六、乘积估计
当辅助变量x与调查变量y成负相关关系时, 不能用比例估计,应改用乘积估计,
设 yRk 是Y 的基于第k个辅助变量的比率估计,
则Y 的多元比率估计量为

比估计和回归估计(抽样)

比估计和回归估计(抽样)

(2)若调查指标为Y , X为辅助变量 X X i 或X X / N已知。 则Y 及Y的比(比率)估计量分别定义为: y ˆX YR y R X R x y ˆ ˆX R ˆX Y R X Ny R NR x ˆ ˆ ˆ 通称为比估计量。 我们将R、Y 、Y
2. 比估计与回归估计的使用 条件 • (1)调查主要指标与辅助变量 之间有良好的线性正相关关系 • (2)辅助变量的总体总量或均 值已知。
第二节 比估计
• 一、定义及基本性质 • (一)定义 • 1.比估计,也叫比估计量,是指以 下三个估计量。
( 1 )对简单随机抽样,若y、x 是样 本两个指标的均值,则总体这两个 指标总量或均值的比值(率)为: Y Y R 可以用: X X y ˆ ˆ 是比值估计量。 R 进行估计。R x
样本号j
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
样本包含单元号 1, 2, 3, 4 1, 2, 3, 5 1, 2, 3, 6 1, 2, 4, 5 1, 2, 4, 6 1, 2, 5, 6 1, 3, 4, 5 1, 3, 4, 6 1, 3, 5, 6 1, 4, 5, 6 2, 3, 4, 5 2, 3, 4, 6 2, 3, 5, 6 2, 4, 5, 6 3, 4, 5, 6
2 (S y R 2 S x2 2 RS yx ) 2 (S y R 2 S x2 2 RS x S y )
Y (C C 2C yx )
2 2 y 2 x
1 f 2 (C y C x2 2C yx ). n
ˆ ) N 2 X 2V ( R ˆ ) MSE (Y ˆ ) V (Y R R N (1 f ) 2 2 2 ( S y R S x 2 RS yx ) n N 2 (1 f ) 2 ( S y R 2 S x2 2 RS x S y ) n 1 f 2 2 Y (C y C x2 2C yx ) n ˆ ) 1 f V (Y 2 2 R ( C C y x 2C yx ). 2 n Y

回归估计

回归估计

(1)回归系数预先确定时的回归估计量的性质 定理2
S XY 当 B 2 时, V ( ylr )取得最小值为 S X 1 f 2 2 min V ( ylr ) SY( 1 XY ) n
其中B称为总体回归系数
(2)未知回归系数时回归估计量的性质
若回归系数事先未知,常取回归系数为样本回归系数b, s ˆ b yx ,此时回归估计量具有如下性质: 即
(一) 回归估计概述

(1)回归估计的定义 回归估计就是利用目标变量与辅助变量的 线性回归关系来提高估计效果的一种估计 方法。

(2)回归估计的分类
一元回归估计 回归估计 多元回归估计
(3) 回归估计的应用条件
(1)选择的辅助变量X与目标量Y之间具有较好的正相关关系 (2)辅助变量的均值(或总量)是已知的 (3)样本量较大

例1 :某县的小麦种植面积为218756亩,分布在 576个村,从这些村子中随机无放回地抽取24个村, 调查得每个村子的小麦种植面积和产量见表4.6, 试用回归估计方法估计全县的小麦产量,并将其与 简单估计进行比较。
(3)回归估计下总体均值的区间估计
①在置信度 1 下总体均值的置信区间为
•(二 )回归估计量及其性质
(1)回归估计量的定义
①总体均值的估计:
ˆ Ylr
其中
ylr y ( X x )
称为回归系数, N为总体规模是一个已知的常数。
②总体总量的估计: Ylr Nylr

(2)回归估计量与简单估计量及比估计量的关系
(1)当 0时, ylr y
y (2)当 =r= 时,ylr rX y R x
s2 x
定理3 在简单随机抽样下,当样本量n较大时,有
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
有偏的估计,只有样本量比较大时,偏误可以忽略不计 。
Exceltek Electronics (HK) Ltd Confidential
举例
• 例1:设某县农村的33户家庭收支调查资料,其中家庭人数X1,
收入X2,食品支出Y, (假设是月度资料,数据省略,仅说明问题 ) 要求估计: (1)每个家庭每月用于食品的支出; (2)平均每人用于食品的支出; (3)食品支出占收入的比重。 分析:在要求(2)中,要求估计平均每人用于食品的支出,显 然须将33 户的食品支出相加,33户家庭人数相加,然后相比, 因此这本身就是一个比率估计的问题。又如要求(3)中要求估 计食品支出占收入的比重,看来似乎是个比例问题,但从现有材 料以户作为抽样单位,食品支出和收入都是随机变量,因此也是 一个比率估计问题。只有要求(1)是一个均值的简单估计问题 。
Exceltek Electronics (HK) Ltd Confidential
第三节 回归估计
• 一、定义
➢ 回归估计是通过对调查变量Y以及该变量有线 性关系的辅助变量X建立回归方程,然后运用 回归方程对总体指标进行推断、估计的方法。
✓ 在直角坐标系中,比估计表现为通过原点的回 归直线,而回归估计可以通过原点,也可以不 通过。
6、相对方差、相对协方差
1
N 1
(Yi
RXi)2
SY2
R
2
S
2 X
2RSxy
Y 2 (CY2 CX2 2CXY )
(cv)2
V (YˆR ) Y2
V (YˆR Y2
)
V (Rˆ) R2
1 f n
(CY2
C
2 X
2CXY )
Exceltek Electronics (HK) Ltd Confidential
Exceltek Electronics (HK) Ltd Confidential
三、 β为样本回归系数
Yˆlr y b( X x)
b (xi x)(yi y) syx
(xi x)2
sx2
MSE(Yˆlr
)
V
(Yˆlr
)
1
n
f
(S
2 y
b2
S
2 x
2bS yx )
1 n
f
S
1 X2
(Yi RXi )2
5、估计量的方差
V (Rˆ) MSE(Rˆ) 1 f 1 1 n N 1 X 2
(Yi RXi )2
V (YˆR ) V (RˆX ) X 2V (Rˆ) V (YˆR ) V (NYˆR ) N 2V (YˆR ) N 2 X 2V (Rˆ)
Exceltek Electronics (HK) Ltd Confidential
➢ 均是有偏估计量
➢ 很难比较两者优劣
Exceltek Electronics (HK) Ltd Confidential
2、置信区间
➢ 当 n 30, cv(x) 0时.1,, cv( y) 0.1

u
v(Rˆ ), Rˆ u
v(Rˆ )
▼当上述条件不满足时,
Exceltek Electronics (HK) Ltd Confidential
例:某街区有2000户居民家庭,按简单随机抽样方法 抽出其中33户家庭,调查其两项指标:食物消费额(y) ,月收入(x),调查结果如下:
食试物用消比费率xyii所估占计9554比方8403重法.2的,置以x信i92 5y区i%22间8的31。可6001靠6640程64度估xy计月16收00入2中72
Rˆ[(1 u2cyx ) u
其中:
(c
2 y
c
2 x
2cxy
)
u2
(c
c2 2
yx
cx2y
)]
1 u2cx2
c
2 y
s
2 y
y2
1 f n
s
2 y
y2
, cx2
s
2 x
x2
1 f n
s
2 x
x2
c
2 yx
s yx yx
1 f n
syx yx
Exceltek Electronics (HK) Ltd Confidential
在涉及两个变量的抽样调查中,有两种情况需要应用比率估计 量。一种情况是利用双变量样本对总体比率进行估计需应用比率 估计量,此时两个变量均为调查变量。另一种情况是一个变量为 调查变量,另一个变量表现为与调查变量有密切关系的辅助变量 ,在对调查变量总体总值、总体均值等目标量进行估计时,利用 已知的辅助变量信息构造比率估计量可以改进估计的精度。
第四章 比估计与回归估计
• 第一节 概述 • 第二节 比估计 • 第三节 回归估计 • 第四节 分层比估计与分层回归估计
Exceltek Electronics (HK) Ltd Confidential
第一节 概述
• 一、问题的提出
在许多实际问题中常常涉及两个调查变量(指标)Y 和X 。对 于包含N个抽样单元的总体除了对总体信息进行估计外,常常要 估计总体比率R。总体比率在形式上总是表现为两个变量总值或 均值之比。
2 y
(1
2
)
v(Yˆlr
)
1
n
f
se2
1 f n
n n
1 2
(s
2 y
b2sx
2
)
Exceltek Electronics (HK) Ltd Confidential
• 例1:某系统共有N=687个单位,为预估当年全系统的工 资总额,用简单随机抽样抽取一个n=26个单位的样本,对 样本的资料统计如下:
。 ➢两种方法的优劣可以归结为相关系数
是否大于1/2。
Exceltek Electronics (HK) Ltd Confidential
例:某系统共有N=687个单位,为预估当年全系统的 工资总额,用简单随机抽样抽取一个n=26个单位的样 本,对样本的资料统计如下:
已知y 上 1一0年9.1全9系45统5 工x资总10额0.(96X6)22为70523.16万元。 试估sy2计 当88年96全.8系66统3 的s工x2 资 7总6额73及.01估4计0 的s近yx 似 8标2准59差.36。24
Exceltek Electronics (HK) Ltd Confidential
例:交通运输统计中有三个重要的指标,即运量、周转量 与平均运距,其中平均运距是总周转量除以运量所得的商 ,为估计公路载货汽车的平均运距,在总体中用简单随机 抽样抽取32辆货车,记录每辆车在一个月内的运量xi与周 转量yi,统计计算结果如下:
y 然后计算样本平均数 ,来估计总体平均数 Y,最后用橘子的总数
N乘以每个橘子的平均含糖量来估计总的含糖量。这种方法实行起 来比较苦难,因为橘子的总数N不容易数清,此外,如果橘子的大 小差别很大时也不容易估计精确。
思路二:利用一个辅助变量,因为每个橘子的含糖量yi与他们的重量
xi有密切联系,呈现高度相关。因此当我们在测定n个橘子的含糖量
基于这种考虑利用已知的辅助变量信息构造比率估计量就可使 估计精度加以改进。
➢ 比估计 ➢ 回归估计
Exceltek Electronics (HK) Ltd Confidential
• 二、辅助变量的选择
➢ 辅助变量与调查变量之间存在较密切的相关性或线性关 系;
➢ 辅助变量的有关资料是能够事先掌握的; ➢ 要求样本容量比较大。因为小样本时,比率估计是一个
✓ 比估计只能有一个辅助变量,而回归估计可以 利用多个辅助变量。
Exceltek Electronics (HK) Ltd Confidential
➢ 总体均值的回归估计量定义为:
ylr y ( X x) y (x X )
➢ 总体总量的回归估计量定义为:

差估Yˆl计r 量 Nylr
Exceltek Electronics (HK) Ltd Confidential
例2:有一批橘子,欲估计其含糖总量。
• 分析:确切的含糖总量只有把全部橘子做成橘子汁以后进行加工提 炼才能得到,因此必须用抽样的方法。
思路一:假设现在用简单随机抽样的方法从中抽取n个橘子为样本, 一种简单的估计推断方法是测定每个橘子的含糖量y1,y2,…yn。
上归一sy估y2年计1全计8089系算9.16统当9.84工年656资全53总系x额统sx2(的1X0工7)06资.9为7总637.600额25122及430.估16计万sy的元x 近。8似试25标运9准.用36差回2。4
Exceltek Electronics (HK) Ltd Confidential
(S
2 y
0
S
2 x
20 S xy )
v(Yˆlr
)
1
n
f
(
s
2 y
0sx2
20sxy)
Exceltek Electronics (HK) 已知某年度小麦总播种面积 为795000亩,现抽取10个乡调查结果为总播种面积为 152000亩,小麦总产量6262.4万公斤,要求依以上资 料对该县平均每个乡镇的小麦总产量和全县的小麦总 产量作出回归分析。(β0=0.04)
的同时,也测定其重量,得到橘子的含糖量与重量之间的一个比率
,如果我们知道橘子的总重量,就可以通过以下的关系求得总含糖
量:
总含糖量
总重量
样本含糖量 样本重量
Yˆ X y Exceltek Electxronics (HK) Ltd Confidential
第二节 比估计
• 一、定义及基本性质
1、总体比率: ➢ 样本比率:
相关文档
最新文档