第四章 比估计与回归估计
抽样理论与方法:比估计与回归估计
要估计会购买的人中,能承受的最高价格在4 ~ 5元者所占的比例, 可设总体有N人, 1,第i人会购买奶酪 xi 0,其他 1,第i人会购买且能承受的最高价格范围是4 ~ 5元 yi 0,其他 N
N 1
1 f 2 2 2 ( S 2 RS R S y xy x ) 2 nX 1 f 2 2 2 ( S 2 R S S R S y x y x ) 2 nX
证明:
y y Rx (1) R R R x x 当n大时, xX
y Rx y Rx E(R R) E( ) E( ) x X E(y R x ) Y RX 0 X X
2 ( Y Y ) i i 1
N 1
(3)比估计的方差估计
1 f 2 2 2 ˆ ˆ MSE ( R) V ( R) ( S 2 RS R S y xy x ) 2 nX
1 f 2 nX
(Y
i 1
N
i
RX i ) 2
N 1
ˆ )的渐近无偏估计为 n 当X已知时,V ( R 2 ˆ ( y R x ) i i 1 f 1 f 2 i 1 ˆ) ˆs R ˆ 2s 2 ) v ( R ( s 2 R 1 y xy x nX 2 n 1 nX 2
N
N 1
MSE ( R ) V( R )
N
1 f nX
2
2 ( Y RX ) i i i 1
应用抽样技术期末复习题
抽样调查一、选择题1.抽样调查的根本功能是( C )A. 获取样本资料B. 计算样本资料C . 推断总体数量特征 D. 节约费用2.概率抽样与非概率抽样的根本区别是( B )A.是否能保证总体中每个单位都有完全相同的概率被抽中B.是否能保证总体中每个单位都有事先已知或可以计算的非零概率被抽中C.是否能减少调查误差D.是否能计算和控制抽样误差3. 与简单随机抽样进行比较,样本设计效果系数Deff >1表明( A )A.所考虑的抽样设计比简单随机抽样效率低B.所考虑的抽样设计比简单随机抽样效率高C.所考虑的抽样设计与简单随机抽样效率相同D.以上皆对4.优良估计量的标准是( B )A.无偏性、充分性和一致性B.无偏性、一致性和有效性C. 无误差性、一致性和有效性D. 无误差性、无偏性和有效性5.某乡欲估计今年的小麦总产量进行调查,已知去年的总产量为12820吨,全县共123个村,抽取13个村调查今年的产量,得到吨,这些村去年63.118=y 的产量平均为吨。
试采用比率估计方法估计今年该地区小麦总产量(21.104=x B )A.12820.63B.14593.96C.12817.83D.14591.496.抽样标准误差的大小与下列哪个因素无关( C )A .样本容量B .抽样方式、方法C .概率保证程度D .估计量7.抽样标准误差与抽样极限误差之间的关系是( B )A. B. C. D.θθ)ˆ(SE =∆)ˆ(θtSE =∆θθ)ˆ(tSE =∆tSE )ˆ(θ=∆8.应用比率估计量能使估计精度有较大改进的前提条件是调查变量与辅助变量之间大致成( A )关系A.正比例B.反比例C.负相关D.以上皆是9.能使达到极小值的值为( B ))2(1)(222YX X Y lr S S S nf y V ββ-+-=βA. B. C. D.YX X Y S S S ⋅2X YX S S 2YYX S S X YX S S 210.( B ) 是总体里最小的、不可再分的单元。
第四章比估计与回归估计
6、相对方差、相对协方差
1 2 2 2 2 (Yi RXi ) SY R S X 2RSxy N 1 2 2 2 Y (CY C X 2C XY )
ˆ ) V (Y ˆ ˆ V ( Y ) V ( R ) 2 R R (cv) 2 2 2 Y Y R 1 f 2 2 (CY C X 2C XY ) n
二、方差估计及置信区间
1、方差估计
1 f 2 ˆ ˆ 2 s 2 2R ˆs ) v1 ( R ) ( s R y x xy 2 nX 1 f 2 ˆ ˆ 2 s 2 2R ˆs ) v2 ( R ) ( s R y x xy 2 nx
两者均是有偏估计量
很难比较两者优劣
y 109.19455 x 100.96622 2 2 s y 8896.8663 s x 7673.0140 s yx 8259.3624
已知上一年全系统工资总额(X)为 70523.16万元。试估计当年全系统的工资 总额及估计的近似标准差(P132) 。
第三节 回归估计
一、定义
2、置信区间
当 n 30, cv( x ) 0.1, cv( y ) 0.1 时,
R ˆ u ˆ), R ˆ u v( R ˆ) v( R
当上述条件不满足时,
ˆ [(1 u 2 c ) u (c 2 c 2 2c ) u 2 (c 2 c 2 c 2 ) ] R yx y x xy y x xy
2 W ˆ 2 h (1 f h ) v(Ylrs ) (nh 1)s yh (1 rh2 ) nh (nh 2)
联合回归估计:在分层随机抽样中,先 对 Y 及 X 作分层简单估计,再 Y 与 Y 作联合回归估计。
抽样复习题-2013(下) (2)
《抽样调查》复习题概述1.1 结合以下所列情况讨论哪些适合用全面调查,哪些适合用抽样调查,并说明理由;1.研究居住在某城市所有居民的食品消费结构;抽样调查2.调查一个县各村的粮食播种面积和全县生猪的存栏头数;全面调查3.为进行治疗,调查一地区小学生中患沙眼的人数;全面调查4.估计一个水库中草鱼的数量;抽样调查5.某企业想了解其产品在市场的占有率;抽样调查6.调查一个县中小学教师月平均工资。
全面调查1.2 结合习题1.1的讨论,你能否概括在什么场合作全面调查,什么场合适合做抽样调查。
答:全面调查:是一种有策划、有方法、有程序的活动,调查的结果一般表现为搜集的数据。
抽样调查:为某一特定目的而对部分考查对象进行的调查1.3某刊物对其读者进行调查,调查表随刊物送到读者手中,对寄回的调查表进行分析。
试问这是不是一项抽样调查?样本抽取是不是属于概率抽样?为什么?答:属于抽样调查,属于概率抽样,每一个样本单元被选中入样的概率是已知的。
1.5 结合习题1.3的讨论,根据你的理解什么是概率抽样?什么是非概率抽样?它们各有什么优点?答:非概率抽样:优点:操作简单,调查数据的处理较容易,省时,省费用。
概率抽样:根据随机原则,按照事先设计的程序,从总体抽取部分单元的抽样方法(要求每一个样本单元被选中入样的概率是已知的)优点:1.6抽样调查的特点。
答:1、节约费用 2、时效性强 3、完成全面调查不能胜任的项目 4、有助于提高数据质量抽样调查基本原理2.1 试说明以下术语或概念之间的关系与区别;1.总体、样本与个体;总体:是指所要研究对象的全体,它由研究对象中所有性质相同的个体组成,组成总体的各个个体称为总体单元或单位。
抽样总体:是指从中抽取样本的总体。
2.总体与抽样框;总体与抽样框应保持一致抽样框:是一份包含所有抽样单元的名单,给每一个抽样单元编上一个号码,就可以按照一定的随机化程序进行抽样。
抽样总体的具体表现是抽样框。
抽样技术练习题及答案
习题一1.请列举一些你所了解的以及被接受的抽样调查。
2.抽样调查基础理论及其意义;3.抽样调查的特点。
4.样本可能数目及其意义;5.影响抽样误差的因素;6.某个总体抽取一个n=50的独立同分布样本,样本数据如下:567 601 665 732 366 937 462 619 279 287690 520 502 312 452 562 557 574 350 875834 203 593 980 172 287 753 259 276 876692 371 887 641 399 442 927 442 918 11178 416 405 210 58 797 746 153 644 4761)计算样本均值y与样本方差s2;2)若用y估计总体均值,按数理统计结果,y是否无偏,并写出它的方差表达式;3)根据上述样本数据,如何估计v(y)?4)假定y的分布是近似正态的,试分别给出总体均值μ的置信度为80%,90%,95%,99%的(近似)置信区间。
习题二一判断题1 普查是对总体的所有单元进行调查,而抽样调查仅对总体的部分单元进行调查。
2 概率抽样就是随机抽样,即要求按一定的概率以随机原则抽取样本,同时每个单元被抽中的概率是可以计算出来的。
3 抽样单元与总体单元是一致的。
4 偏倚是由于系统性因素产生的。
5 在没有偏倚的情况下,用样本统计量对目标量进行估计,要求估计量的方差越小越好。
6 偏倚与抽样误差一样都是由于抽样的随机性产生的。
7 偏倚与抽样误差一样都随样本量的增大而减小。
8 抽样单元是构成抽样框的基本要素,抽样单元只包含一个个体。
9 抽样单元可以分级,但在抽样调查中却没有与之相对应的不同级的抽样框。
10 总体目标量与样本统计量有不同的意义,但样本统计量它是样本的函数,是随机变量。
11 一个抽样设计方案比另一个抽样设计方案好,是因为它的估计量方差小。
12 抽样误差在概率抽样中可以对其进行计量并加以控制,随着样本量的增大抽样误差会越来越小,随着n越来越接近N,抽样误差几乎可以消除。
比估计与回归估计在分层抽样中的应用
比估计与回归估计在分层抽样中的应用摘要:本文主要探讨了在分层抽样中,估计与回归估计的应用。
首先,我们介绍了分层抽样的基本概念和方法,然后详细阐述了估计和回归估计的基本原理和应用。
我们发现,在分层抽样中,估计和回归估计可以有效地提高样本的代表性和估计的准确性。
此外,我们还讨论了估计和回归估计在实际应用中可能遇到的问题和挑战,以及如何解决这些问题。
最后,我们通过实证研究验证了估计和回归估计在分层抽样中的有效性。
关键词:分层抽样;估计;回归估计;样本代表性;估计准确性;问题与挑战;实证研究。
一、引言1 研究背景和意义在研究背景和意义上,分层抽样是一种复杂而有效的抽样方法,它的主要目标是从复杂的总体中抽取出具有代表性的研究样本。
这种方法特别适用于总体情况复杂,各单位之间差异较大,单位较多的情况。
具体来说,分层抽样将总体按照某种共同特性或属性划分为多个较小的子组或层,再从每个层内独立随机抽取样本。
估计与回归估计作为统计学中的核心概念,其主要目标是根据样本数据来估计或预测一个未知的总体参数。
在分层抽样的背景下,估计和回归估计的应用变得尤为重要。
因为通过这两个方法,我们可以有效地提高样本的代表性和估计的准确性,进而更准确地对总体进行推断和预测。
然而,在实际应用中,我们可能会遇到一些问题和挑战,如如何选择合适的分层变量,如何处理层间异质性等问题。
因此,如何解决这些问题,优化估计和回归估计在分层抽样中的应用,是本研究的重要任务。
最后,我们将通过实证研究来验证估计和回归估计在分层抽样中的有效性。
2 研究目的和方法2.1研究目的2.1.1对比估计与回归估计在分层抽样中的优劣:通过对比研究,明确哪种估计方法在分层抽样中更有效,或者在不同情况下哪种方法更适用。
2.1.2探讨分层抽样中估计与回归估计的应用:研究如何在分层抽样中应用比估计和回归估计,以及如何根据实际情况选择合适的估计方法。
2.1.3为分层抽样中的估计方法提供理论支持和实践指导:通过对比研究,为分层抽样中的估计方法提供理论依据和实践指导,帮助相关领域的研究者和实践者更好地理解和应用这些方法。
比估计与回归估计
L
ˆ YRS
L yh ˆ =∑ X h = ∑ YRh h xh h
L
13
在分层随机抽样中, 在分层随机抽样中 , 若每层的样本量 n h 都 ˆ 较大, 的近似无偏估计。其方差为: 较大,则 YRS 为Y的近似无偏估计。其方差为:
ˆ ) ≈ ∑ N 2 (1 − f h ) ( S 2 + R 2 S 2 − 2 R ρ S S ) V (YRS h yh h xh h h yh xh nh h
3
在实际工作中, 在实际工作中 , 为了充分发挥比估计的优越 在应用比估计时应考虑两条: 性,在应用比估计时应考虑两条: 一是选与调查变量有较密切的正相关关系的 变量作为辅助变量。 变量作为辅助变量 。 因为如果辅助变量与调查变 量的关系不密切, 各自独立变化, 量的关系不密切 , 各自独立变化 , 则对比估计起 不了应有的辅助作用。 不了应有的辅助作用。 二是样本容量要比较大。 二是样本容量要比较大 。 因为比估计是有偏 倚的,只有当样本容量n比较大时, 倚的,只有当样本容量n比较大时,其偏倚才能比 较小,比估计才更加有效。 较小,比估计才更加有效。
18
回归估计的主要特点有: 回归估计的主要特点有 主要特点 回归估计充分利用了有关的辅助变量资料以有 效地提高估计的精度; 效地提高估计的精度; 回归估计中要求辅助变量的总体均值或总和事 先已知; 先已知; 回归估计一般只适用于有限总体, 回归估计一般只适用于有限总体,因为只有有 限总体才可能计算出辅助变量的总体均值和总和; 限总体才可能计算出辅助变量的总体均值和总和; 回归估计量一般优于比估计量和简单估计量。 回归估计量一般优于比估计量和简单估计量。
第五章
第一节 第二节 第三节 第四节
简单估计、比估计与回归估计的效率比较
简单估计、比估计与回归估计的效率比较作者:田兵来源:《牡丹江师范学院学报(自然科学版)》2018年第03期摘要:比较简单随机不放回抽样下,简单估计、比估计和回归估计三种估计量的效率.简单估计是无偏的,比估计和回归估计是有偏的;在大样本情况下(B≠R),回归估计的精度最高,简单估计的精度最低.关键词:简单估计量;比估计量;辅助信息;回归估计量[中图分类号]O212 [文献标志码]AAbstract:Compare the efficiencies of simple estimator,ratio estimator and regression estimator under SRSWOR. Simple estimator is unbiased, ratio estimator and regression estimator are biased. The efficiency of regression estimator is highest, the efficiency of simple estimator is lowest under big sample (B≠R).Key words:simple estimator; ratio estimator;auxiliary information;regression estimator简单估计、比估计和回归估计是经常用到的对总体有关参数进行估计的三种估计量.简单估计形式简洁,具有无偏性.比估计依据调查变量与辅助变量间的比率对总体有关参数进行估计和推断.虽然比估计是有偏的,但是因为它除了使用调查变量样本信息外,还充分利用辅助变量携带的信息来估计总体参数,所以比估计往往比单纯使用调查变量资料的简单估计有更高的精度.回归估计根据样本各单元调查变量与辅助变量之间的关系构建回归方程,并根据回归系数对总体有关参数进行估计.回归估计是有偏的,只有在大样本情形下,回归估计量优于简单估计和比估计,缺点是计算方法较为复杂.4 结论数值模拟表明,在简单随机不放回抽样下,简单估计是无偏的,比估计和回归估计是有偏的;在大样本的情况下(B≠R),回归估计的精度最高,简单估计的精度最低.参考文献[1] Zaizai Yan,Bing Tian. Ratio method to the mean estimation using coefficient of skewness of auxiliary variable[J]. ICICA,Part II,CCIS,2010,106:103-110.[2] 冯士雍,施锡铨.抽样调查—理论、方法和实践[M].上海:上海科技技术出版社,1994.100-152.[3] 薛雨霞,闫在在.有辅助信息下总体均值的一类新比估计量[J].内蒙古工业大学学报,2015,34(1):1-5.[4] 卢静莉.多辅助变量线性组合的回归估计[J].统计与信息论坛,2010,25(5):14-17.[5] 张格亮,李昕.风险投资项目评估中几种数学方法评析. [J].牡丹江师范学院学报:自然科学版,2012(1):1-4.[6] 孙耀东.含双辅助变量的有限总体均值的回归估计[J].内蒙古农业大学学报:自然科学版,2013,34(6):169-173.[7] 刘常彪,李臻臻.关于泊松分布高阶矩的一些研究. [J].牡丹江师范学院学报:自然科学版,2014(2):5-6.[8] 刘媛媛.比估计方法下Eichhorn and Hayre模型的参数估计[J].内蒙古师范大学学报,2014,43(6):689-695.[9] 薛雨霞. 关于比率型估计量和AP设计下包含概率研究[D].呼和浩特:内蒙古工业大学,2015.[10] 侯瑞环.含辅助信息的最小非参似然比估计和检验[J]. 四川师范大学学报:自然科学版,2016,39(1):59-64.编辑:吴楠。
比率估计和回归估计
Ratio and Regression Estimator引例:1802年,拉普拉斯想要估计法国的人口数目。
他获得了一个遍布全国范围的30个社区(commune )的样本,截至1802年9月23日总共有2037615居民。
在包括1802年9月23日以前的三年中,215599个新生儿在30个commune 。
拉普拉斯认为30个commune 的每年注册的新生儿数为215599/3=71866.33。
把2037615按照71866.33 来分,拉普拉斯估计每年每28.35人里有一个注册新生儿。
具有众多人口的乡镇也就可能有同样众多的注册新生儿,通过用28.35乘以全法国年度新生儿总数来估计得出法国人口总数。
调查中都有辅助信息,抽样框也通常有每个单元额外的信息,这些信息能被用来提高我们的估计精度。
一、为什么要使用比率估计/回归估计利用总体的辅助信息提高估计的精度。
辅助指标的选择:第一,辅助指标应该与调查指标有较好的正的相关关系。
第二,x y的抽样分布较ux y 的抽样分布变动性要小得多。
第三,辅助指标的总体总量或总体均值已知。
比率估计、回归估计需要有足够的样本量才能保证估计的有效。
有偏估计:当样本量足够大时,估计的偏倚趋于0。
简单地想要估计一个比率:假定总体由面积不同农业用地构成,i y i =地谷物的产量,i x i =地的面积,B=每亩谷物的平均产量。
想要估计一个总体总数,但总体大小N 是未知的。
但是我们知道,于是可以通过y N t y =ˆ来估计N,由此我们可以使用不同于总数N 的方法而是采用辅助变量来进行测量。
要估计渔网中长度长于12cm 的鱼的总数,抽取一个鱼的随机样本,估计长度长于12cm 的鱼所占的比例,用鱼的总数N 乘以这个比例即可得到,但如果N 未知不能使用。
能称量渔网中鱼的总重量。
鱼的长度与其重量相关。
xt yt x yr =ˆ调整来自样本的估计量以便它们反映人口统计学的总量。
在一所具有4000名学生的大学提取一个400个学生的简单随机样本,此样本可能包含240个女性,160个男性,且其中被抽中的84名女性和40名男性计划以教学为毕业后的职业。
抽样技术课后习题-参考答案-金勇进
抽样技术课后习题-参考答案-金勇进第二章习题2.1判断下列抽样方法是否是等概的:(1)总体编号1~64,在0~99中产生随机数r ,若r=0或r>64则舍弃重抽。
(2)总体编号1~64,在0~99中产生随机数r ,r 处以64的余数作为抽中的数,若余数为0则抽中64.(3)总体20000~21000,从1~1000中产生随机数r 。
然后用r+19999作为被抽选的数。
解析:等概抽样属于概率抽样,概率抽样具有一些几个特点:第一,按照一定的概率以随机原则抽取样本。
第二,每个单元被抽中的概率是已知的,或者是可以计算的。
第三,当用样本对总体目标进行估计时,要考虑到该样本被抽中的概率。
因此(1)中只有1~64是可能被抽中的,故不是等概的。
(2)不是等概的【原因】(3)是等概的。
2.2抽样理论和数理统计中关于样本均值y 的定义和性质有哪些不同?2.3为了合理调配电力资源,某市欲了解50000户居民的日用电量,从中简单随机抽取了300户进行,现得到其日用电平均值=y 9.5(千瓦时),=2s 206.试估计该市居民用电量的95%置信区间。
如果希望相对误差限不超过10%,则样本量至少应为多少?解:由已知可得,N=50000,n=300,5.9y =,2062=s1706366666206*300500003001500001)()ˆ(222=-=-==s nf N y N v YV 19.413081706366666(==)y v 该市居民用电量的95%置信区间为[])(y [2y V z N α±=[475000±1.96*41308.19]即为(394035.95,555964.05) 由相对误差公式y)(v u 2y α≤10%可得%10*5.9206*n50000n 1*96.1≤- 即n ≥862欲使相对误差限不超过10%,则样本量至少应为8622.4某大学10000名本科生,现欲估计爱暑假期间参加了各类英语培训的学生所占的比例。
比估计和回归估计(抽样)
(2)若调查指标为Y , X为辅助变量 X X i 或X X / N已知。 则Y 及Y的比(比率)估计量分别定义为: y ˆX YR y R X R x y ˆ ˆX R ˆX Y R X Ny R NR x ˆ ˆ ˆ 通称为比估计量。 我们将R、Y 、Y
2. 比估计与回归估计的使用 条件 • (1)调查主要指标与辅助变量 之间有良好的线性正相关关系 • (2)辅助变量的总体总量或均 值已知。
第二节 比估计
• 一、定义及基本性质 • (一)定义 • 1.比估计,也叫比估计量,是指以 下三个估计量。
( 1 )对简单随机抽样,若y、x 是样 本两个指标的均值,则总体这两个 指标总量或均值的比值(率)为: Y Y R 可以用: X X y ˆ ˆ 是比值估计量。 R 进行估计。R x
样本号j
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
样本包含单元号 1, 2, 3, 4 1, 2, 3, 5 1, 2, 3, 6 1, 2, 4, 5 1, 2, 4, 6 1, 2, 5, 6 1, 3, 4, 5 1, 3, 4, 6 1, 3, 5, 6 1, 4, 5, 6 2, 3, 4, 5 2, 3, 4, 6 2, 3, 5, 6 2, 4, 5, 6 3, 4, 5, 6
2 (S y R 2 S x2 2 RS yx ) 2 (S y R 2 S x2 2 RS x S y )
Y (C C 2C yx )
2 2 y 2 x
1 f 2 (C y C x2 2C yx ). n
ˆ ) N 2 X 2V ( R ˆ ) MSE (Y ˆ ) V (Y R R N (1 f ) 2 2 2 ( S y R S x 2 RS yx ) n N 2 (1 f ) 2 ( S y R 2 S x2 2 RS x S y ) n 1 f 2 2 Y (C y C x2 2C yx ) n ˆ ) 1 f V (Y 2 2 R ( C C y x 2C yx ). 2 n Y
回归估计
(1)回归系数预先确定时的回归估计量的性质 定理2
S XY 当 B 2 时, V ( ylr )取得最小值为 S X 1 f 2 2 min V ( ylr ) SY( 1 XY ) n
其中B称为总体回归系数
(2)未知回归系数时回归估计量的性质
若回归系数事先未知,常取回归系数为样本回归系数b, s ˆ b yx ,此时回归估计量具有如下性质: 即
(一) 回归估计概述
(1)回归估计的定义 回归估计就是利用目标变量与辅助变量的 线性回归关系来提高估计效果的一种估计 方法。
(2)回归估计的分类
一元回归估计 回归估计 多元回归估计
(3) 回归估计的应用条件
(1)选择的辅助变量X与目标量Y之间具有较好的正相关关系 (2)辅助变量的均值(或总量)是已知的 (3)样本量较大
例1 :某县的小麦种植面积为218756亩,分布在 576个村,从这些村子中随机无放回地抽取24个村, 调查得每个村子的小麦种植面积和产量见表4.6, 试用回归估计方法估计全县的小麦产量,并将其与 简单估计进行比较。
(3)回归估计下总体均值的区间估计
①在置信度 1 下总体均值的置信区间为
•(二 )回归估计量及其性质
(1)回归估计量的定义
①总体均值的估计:
ˆ Ylr
其中
ylr y ( X x )
称为回归系数, N为总体规模是一个已知的常数。
②总体总量的估计: Ylr Nylr
(2)回归估计量与简单估计量及比估计量的关系
(1)当 0时, ylr y
y (2)当 =r= 时,ylr rX y R x
s2 x
定理3 在简单随机抽样下,当样本量n较大时,有
简单估计、比估计和回归估计效率的实证检验
计的目标值是某指标 Y 的总量或均值,但要有另一与 Y 关系密
切的指标 X 作为辅助变量,利用辅助变量的信息可以改进估计
的精度。总体均值 Y 的比估计定义为:
Байду номын сангаас
= y R
∧
R= X
yX x
∑ ∑ (其中
y
=
1 n
n i =1
yi , x
=
1 n
n i =1
∧
xi , R
=
y x
)
∑ 方差为:
V
(
y
R
)
计从实践的角度进行对比和实证检验。
二、 预备知识
(一)简单随机抽样
一般的,对于一个大小为 N 的总体,抽取一个样本量为 n 的样本 . 考虑放回情形,若全部可能的 CNn 个样本每个被抽中 的概率都相等,都等于 1/ CNn ,则这种抽样称为不放回简单随 机抽样。考虑放回情形,此时样本中的单元有可能重复出现,
10
5
356
1030
14
2
940
640
15
4
423
960
21
3
610
730
27
2
345
620
28
4
488
970
31
4
418
1000
34
3
563
840
∑ x(∑ y)
37
9400
∑ x2(∑ y2)
133
8293800
(三)每月每户食物消费支出均值的简单估计
每月每户食物消费支出均值的估计量为:
∑ =y
ylr 的 1-α 的近似置信区间为:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
当样本容量n充分大时,这种偏误趋近于0 3、估计总体平均数及总体标志总量
Y R Y RX X Y R Y RX X
y ˆ ˆ Y RX X x y ˆ ˆ ˆX Y RX X NR x
ˆ 称为比估计量 ˆ,Y ˆ,Y R
4、样本估计量的均方误差
1 f 1 1 ˆ MSE ( R) 2 (Yi RX i ) 2 n N 1 X
y 109.19455 x 100.96622 2 2 s y 8896.8663 s x 7673.0140 s yx 8259.3624
已知上一年全系统工资总额(X)为 70523.16万元。试估计当年全系统的工 资总额及估计的近似标准差 。
第三节 回归估计
一、定义
回归估计是通过对调查变量Y以及该变量有线 性关系的辅助变量X建立回归方程,然后运用 回归方程对总体指标进行推断、估计的方法。 在直角坐标系中,比估计表现为通过原点的回 归直线,而回归估计可以通过原点,也可以不 通过。 比估计只能有一个辅助变量,而回归估计可以 利用多个辅助变量。
例:设某县有53个乡镇,已知某年度小 麦总播种面积为795000亩,现抽取10个 乡调查结果为总播种面积为152000亩, 小麦总产量6262.4万公斤,要求依以上 资料对该县平均每个乡镇的小麦总产量 和全县的小麦总产量作出回归分析。 (β 0=0.04)
三、 β为样本回归系数
ˆ Ylr y b( X x )
第四章 比估计与回归估计
第一节 概述 第二节 比估计 第三节 回归估计
第四节 分层比估计与分层回归估计
第一节 概述
一、问题的提出
在许多实际问题中常常涉及两个调查变量(指标)Y 和X 。 对于包含N个抽样单元的总体除了对总体信息进行估计外,常常 要估计总体比率R。总体比率在形式上总是表现为两个变量总值 或均值之比。 在涉及两个变量的抽样调查中,有两种情况需要应用比率估 计量。一种情况是利用双变量样本对总体比率进行估计需应用比 率估计量,此时两个变量均为调查变量。另一种情况是一个变量 为调查变量,另一个变量表现为与调查变量有密切关系的辅助变 量,在对调查变量总体总值、总体均值等目标量进行估计时,利 用已知的辅助变量信息构造比率估计量可以改进估计的精度。 基于这种考虑利用已知的辅助变量信息构造比率估计量就可 使估计精度加以改进。
收入X2,食品支出Y, (假设是月度资料,数据省略,仅说明问题) 要求估计: (1)每个家庭每月用于食品的支出; (2)平均每人用于食品的支出; (3)食品支出占收入的比重。 分析:在要求(2)中,要求估计平均每人用于食品的支出, 显然须将33 户的食品支出相加,33户家庭人数相加,然后相比, 因此这本身就是一个比率估计的问题。又如要求(3)中要求估 计食品支出占收入的比重,看来似乎是个比例问题,但从现有材 料以户作为抽样单位,食品支出和收入都是随机变量,因此也是 一个比率估计问题。只有要求(1)是一个均值的简单估计问题。
例1:某系统共有N=687个单位,为预估当 年全系统的工资总额,用简单随机抽样抽 取一个n=26个单位的样本,对样本的资料 统计如下:
y 109.19455 x 100.96622 2 2 s y 8896.8663 s x 7673.0140 s yx 8259.3624
上一年全系统工资总额(X)为70523.16万 元。试运用回归估计计算当年全系统的工 资总额及估计的近似标准差。
2 y 5443 . 2 y i i 1016064 2 x 9580 x i i 2836064 xy 1600272
试用比率估计方法,以95%的可靠程度 估计月收入中食物消费所占比重的置信 区间。
例:交通运输统计中有三个重要的指标,即 运量、周转量与平均运距,其中平均运距是 总周转量除以运量所得的商,为估计公路载 货汽车的平均运距,在总体中用简单随机抽 样抽取32辆货车,记录每辆车在一个月内的 运量xi与周转量yi,统计计算结果如下:
比估计 回归估计
二、辅助变量的选择
辅助变量与调查变量之间存在较密切的相 关性或线性关系; 辅助变量的有关资料是能够事先掌握的; 要求样本容量比较大。因为小样本时,比 率估计是一个有偏的估计,只有样本量比 较大时,偏误可以忽略不计。
举例
例1:设某县农村的33户家庭收支调查资料,其中家庭人数X1,
2 2 1 u cx
其中:
2 2 2 s s s 1 f 1 f y 2 2 cy 2 2 , cx x2 x2 y n y x n x s yx 1 f s yx 2 c yx yx n yx 2 sy
例:某街区有2000户居民家庭,按简单 随机抽样方法抽出其中33户家庭,调查 其两项指标:食物消费额(y),月收入 (x),调查结果如下:
差估计量 简单估计量 比估计量
二、β为设定常数
ˆ y ( X x) Y lr 0
1 f 2 ˆ 2 V (Ylr ) ( S y 0 S x 2 0 S xy ) n 1 f 2 ˆ 2 v(Ylr ) ( s y 0 s x 2 0 s xy ) n
例2:有一批橘子,欲估计其含糖总量。
分析:确切的含糖总量只有把全部橘子做成橘子汁以后进行加工提 炼才能得到,因此必须用抽样的方法。 思路一:假设现在用简单随机抽样的方法从中抽取n个橘子为样本, 一种简单的估计推断方法是测定每个橘子的含糖量y1,y2,…yn。 然后计算样本平均数 ,来估计总体平均数 Y ,最后用橘子的总 数N乘以每个橘子的平均含糖量来估计总的含糖量。这种方法实行起 来比较苦难,因为橘子的总数N不容易数清,此外,如果橘子的大小 差别很大时也不容易估计精确。 思路二:利用一个辅助变量,因为每个橘子的含糖量yi与他们的重量 xi有密切联系,呈现高度相关。因此当我们在测定n个橘子的含糖量 的同时,也测定其重量,得到橘子的含糖量与重量之间的一个比率, 如果我们知道橘子的总重量,就可以通过以下的关系求得总含糖量: 样本含糖量 总含糖量 总重量 样本重量 ˆXy Y x
6、相对方差、相对协方差
1 2 2 2 2 (Yi RXi ) SY R S X 2RSxy N 1 2 2 2 Y (CY C X 2C XY )
ˆ ) V (Y ˆ ˆ V ( Y ) V ( R ) 2 R R (cv) 2 2 2 Y Y R 1 f 2 2 (CY C X 2C XY ) n
yh ˆ Rh xh ˆ ˆ X y Yh R h h Rh
Yh Rh Xh
Yh Rh X h YRS WhYh
yh ˆ YRS y RS Wh y Rh Wh Xh xh
yh ˆ YRS Ny RS X h xh ˆ ) V (Y ˆ ) MSE(Y
i i
( x x )( y y ) s b s (x x)
2 i
yx 2 x
1 f 2 2 2 1 f 2 ˆ ˆ 2 MSE (Ylr ) V (Ylr ) ( S y b S x 2bS yx ) S y (1 ) n n
1 f 2 1 f n 1 2 ˆ 2 2 v(Ylr ) se (s y b sx ) n n n2
5、估计量的方差
1 f 1 1 ˆ ˆ V ( R) MSE ( R) 2 (Yi RX i ) 2 n N 1 X
ˆ 2 ˆ ˆ) V (YR ) V ( RX ) X V ( R ˆ ˆ 2 2 2 ˆ ˆ) V (YR ) V ( NYR ) N V (YR ) N X V ( R
总体均值的回归估计量定义为: ylr y ( X x ) y ( x X )
总体总量的回归估计量定义为:
ˆ Ny Y lr lr
因此说,简单估计量和比估计量都是回归估计的特例。
1 ylr y X x 0 ylr y y y 偏估计量 很难比较两者优劣
2、置信区间
当 n 30, cv( x ) 0.1, cv( y ) 0.1 时, R ˆ u v( R ˆ), R ˆ u v( R ˆ)
▼当上述条件不满足时,
ˆ [(1 u 2 c ) u (c 2 c 2 2c ) u 2 (c 2 c 2 c 2 ) ] R yx y x xy y x xy
四、回归估计量与比估计量及一般样本 平均数的比较
在大样本下,回归估计总是优于简单 估计量。 在大样本下,回归估计总是优于比估 计。
第四节 分层比估计与分层回归估计
一、分别比估计与联合比估计 分别比估计:在分层随机抽样中,对每 层样本考虑比估计,然后进行加权平均 或相加,所得的估计量称为分别比估计
二、方差估计及置信区间
1、方差估计
1 f 2 ˆ ˆ 2 s 2 2R ˆs ) v1 ( R ) ( s R y x xy nX 2 ˆ ) 1 f (s 2 R ˆ 2 s 2 2R ˆs ) v2 ( R y x xy 2 nx 1 f ˆ 2 ˆ 2 s 2 2R ˆs ) v(YR ) (s y R x xy n 2 N (1 f ) 2 ˆ 2 2 ˆ ˆs ) v(YR ) (s y R sx 2R xy n
三、比估计的效果分析 如果 2CxCy Cx2 0 两种方法的估计
效果基本相同。
如果 2CxCy Cx2 0 比估计优于简单
估计。