第2与3章的结合 比率估计与回归估计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

y x
• 比率估计量还被用来对无回答进行调整 • 设抽取一个行业的样本:令yi为i行业花费在健 康保险上的金额,xi为i行业的雇员数。假定对 总体中的每个行业xi均已知。我们希望一个行 业花费在健康保险上的金额与雇员数相关。某 些行业在调查中可能涉及不到。估计保险费用 的总花销时调整无回答的方法之一是用总体数 X 乘以比率 y
• 假定总体由面积不同农业用地构成, yi =i地 谷物的产量, xi :i地的面积,B=每亩谷物的 平均产量; • 要估计渔网中长度长于10cm的鱼的总数,抽 取一个鱼的随机样本,得出长度长于10cm的 鱼所占的比例,用鱼的总数N乘以这个比例即 可得到,但如果N未知不能使用。 • 如何估计你的英文单词量?
2.Combined Ratio estimator
分别比率估计量要求每一层的样本量都比 由y 估 计 y , 由x 估 计 x 。
h st h st
较大,如果达不到这个要求,则它的偏倚可 能比较大,这时使用联合比率估计量。 combined ratio estimator
y RC
y st ˆ X X R C x st
为什么要使用比率估计/回归估计
• 欲观其人,先察其友。利用总体的辅助信息提 高估计的精度。
–辅助指标的选择 :辅助指标应该与调查指标有较好 的正的相关关系 。 –辅助指标的总体总量或总体均值已知。
• 比率估计、回归估计需要有足够的样本量才能 保证估计的有效。
–有偏估计:当样本量足够大时,ຫໍສະໝຸດ Baidu计的偏倚趋于0。
比估计 18 18 17.1 16.875 21.15 15.75 15.75 16 20 16.3 16.36 19.73 16.27 19.2 18.75
y yR X x
y x
i i
X
1 15 E ( yR ) yRi 17.686 15 i 1
1 2 V ( yR ) yRi E ( yR ) 2.82 15 i 1
x
一、比率估计量 设对有两个调查变量Y 和X 的总体进行简单随机抽样 , 分别以y,x表示样本总值 ,以
ˆ R 为样本比率 ,用 y x y x
表示样本均值,以 y, x
ˆ R 作为总体比率 R的估计,这就称为的比
率估计 。
比率估计量除了使用调查变量样本信息外,还要使用 辅助变量总体信息与样本信息,而且是非线性估计量。这 类估计量称为复杂估计量。由于比率估计量使用的信息比 简单估计量多,因而有可能比简单估计量有更高的精度。 同时由于比率估计量是非线性估计量,因而对其性质的研 究比对简单估计量要复杂得多。
y st ˆ ˆ X YRC X Ny RC R C x st
方差的比较
2 W 2 2 2 h ˆ ) N2 垐 Y V (Y ( S R RS n yh h S xh 2 Rh S yxh ) Rs h 2 W ˆ ) N2 2 2 2 h 垐 Y V (Y ( S R RC n yh c S xh 2 Rc S yxh ) Rc h
分层抽样下,比估计有两种方法: 1.Separate Ratio estimator
r1
y x
1
, r2
1
y x
2 2
,
…….
rL
y x
L L
(h=1,2,…..L)
yh yRS Wh yRh Wh Xh xh
yh ˆ ˆ YRS NyRS Xh Y Rh xh
1 f ˆ ˆ (2) MSE( R) V ( R) 2 nX

2 ( Y RX ) i i i 1 N
N 1
1 f 2 2 2 ( S 2 RS R S y xy x ) nX 2 1 f 2 2 2 ( S 2 R S S R S ) y x y x 2 nX
Chapter 2-3 比率估计与回归估计
• 1802年,拉普拉斯想要估计法国的人口数目。他获得 了一个遍布全国范围的30commune的样本,截至1802 年9月23日总共有2,037615居民。在包括1802年9月23 日以前的三年中,215599个新生儿在30个commune。 • 拉普拉斯认为30个commune的每年注册的新生儿数为 215599/3=71866.33.把2037615按照71866.33来分,拉普 拉斯估计每年每28.35人里有一个注册新生儿。 • 具有众多人口的乡镇也就可能有同样众多的注册新生 儿,通过用28.35乘以全法国年度新生儿总数来估计得 出法国人口总数。 • 调查中都有辅助信息,抽样框也通常有每个单元额外 的信息,这些信息能被用来提高我们的估计精度。
15
1 15 E ( y ) yi 18 15 i 1
1 15 2 V ( y ) yi E ( y ) 97.87 15 i 1
B( yR ) E( yR ) Y 0.31356
MSE( yR ) V ( yR ) B2 ( yR ) 2.92
ˆ ) X 2V ( R ˆ) •V如果各层的样本量不小的话,则可以采用 ( y R ) V ( XR 各层分别进行比率估计,将各层加权汇总 ˆ ) N 2 X 2V ( R ˆ) V (Y R 得到总体指标的估计,这种方式称为分别 当 R>0.5 时,比估计比 srs 有更高的精度。 比率估计量。separate ratio estimator
正高度 相关
2.比率估计成为最优线性无偏估计的条件 (1). yi 与 x 的关系是过原点的直线 (2). yi 对这条直线的方差与 x 成比例。 则比率估计是最优线性无偏估计(BLUE)。
i i
• 【例4.2】某县在对船舶调查月完成的货运量进行调查 时,对运管部门登记的船舶台帐进行整理后获得注册 船舶2860艘,载重吨位154626吨,从2860艘船舶中抽 i 取了一个的简单随机样本,调查得到样本船舶调查月 完成的货运量及其载重吨位如下表(单位:吨),要 推算该县船舶调查月完成的货运量。
• 调整来自样本的估计量以便它们反映人
口统计学的总量。
• 在一所具有4000名学生的大学提取一个 400个学生的简单随机样本,此样本可能 包含240个女性,160个男性,且其中被 抽中的84名女性和40名男性计划以教学 为毕业后的职业。
4000 124 1240 400
84 40 2700 1300 1270 240 160
2 ( Y RX ) 1 f i i ˆ V ( R) 2 辅助变量x,其总体均值(总量)已知 N 1 nX
【例4.1】对以下假设总体(N=6),用简单随机抽样抽 取的样本,比较简单随机抽样比估计及简单估计的性质。
1
2 1 3
3 3 11
4 5 18
5 8 29
6 10 46
平均值 4.5 18
ˆ RX ˆ , X已知 Y的比率估计量:Y R
利用辅助变量的信息改进估计的精度
Y Y R , X X 因 此Y RX,Y RX
ˆ ˆ X , X已 知 Y 及Y的 比 估 计 量 : YR R ˆ R ˆ X , X已 知 Y
R
比估计的使用条件: (1)调查变量与辅助变量间有正线性相关关系, 且大致呈正比例; (如果辅助变量与调查变量间有负线性相关关 系,则要采取乘积估计。)
1 N 1 n 2 2 ˆ ( Y RX ) 可 用 ( y R x ) i i i i 估计 n 1 i 1 N 1 i 1
比率估计量的偏差与均方误差
ˆ , y ,Y ˆ 分别为 R, Y , Y 的近似无 理论上可以证明, R R R 偏估计量,而且对于比率估计量,其方差主要取决于 Yi 与 RX i
之间的差异,当 Yi RX i 时,估计量方差将很小。换言之, 比率估计量将有很高的精度。这告诉我们,只有当两个变
量大致成正比例关系时,应用比率估计量才能使估计精度
有较大改进。
三、比率估计的效率
• 1.与简单估计的比较 简单估计量无偏,而比率估计量渐近无偏。 因此这里只比较当n比较大的情形。
1 f 2 V y Sy n
x
u
二、比率估计的性质
E (r R) 1 f 2 ( S S RS ) x y x 2 nX
偏倚量会小,如果: 样本量n 很大 抽样比n/N很大 X 很大 S x很小 相关系数接近于1
比率估计的方差估计
ˆ ) V (R ˆ ) 1 f ( S 2 2 RS R 2 S 2 ) MSE ( R y xy x nX 2
i
Yi
Xi
i
Yi
Xi
1 2 3
780 1500 1005
100 50 50
6 7 8
2170 1823 1450
120 150 80
4
5
376
600
10
20
9
10
158
1370
20
50
• 该县船舶在调查月完成货运量的比率估 计为 y 1123.2
ˆ Y R x X 65 154626 2671937

1 f 2 nX
(Y
i 1
N
i
RX i ) 2
N 1
n ˆ )的 渐 近 无 偏 估 计 为 当X已 知 时 , V (R 2 ˆ ( y R x ) i i 1 f i 1 1 f 2 2 2 ˆ ˆ ˆ v ( ( s y 2 Rs xy R s x ) 2 1 R) 2 n X n 1 nX
1 f 2 1 f 2 2 2 S y R2 Sx 2 RS y S x V yR S y R2 S x 2 RS yx n n


比率估计量优于简单估计量的条件是:
2 R2 Sx 2RS y Sx 0
1 Sx X Cx 2 S y Y 2Cy
• 简单估计是无偏的,而比估计是有偏的。 • 简单估计量的方差远远大于比估计量的方差,比估计的偏差不大, 其均方误差也比简单估计的小得多。 • 因此对这个总体,比估计比简单估计的效率高。
二、比率估计的性质
对于简单随机抽样来说 y ˆ ˆ) R (1) R 是有偏的。但当n大时,E ( R x
(2)估计 或Y时 ,一般要求辅助变量的总体 总量或均值是已知的。
(3)适用面广,可以用于简单随机抽样,也可用 于分层随机抽样、整群抽样、多阶抽样等;
一、 Ratio Estimator
y y 在 srs 条件下, y R X X x x
y y ˆ X Y X Ny R R x x y ˆ R x
一、比率估计量
Y Y R X X
ˆ Y ˆ 比率估计量R ˆ X
如何利用辅助变量的信息改进估计的精度?
例:1802年,Laplace受法国政府委托进行 法国人口的估计与推算。推算方法如下:
总体的人口总数 Y R 总体的出生人口数 X (已 知 )
即总体的人口总数 Y RX
ˆ R 样本的人口数 28.35 样本的出生人口总数
N 2 (1 f ) 2 ˆ v Y s y 3.43303 1011 n

ˆ) v(Y R ˆ deff 0.6135 ˆ) v(Y
实际中对于样本量较小的情形, 使用比率估计量时不能忽视其偏倚。
ˆ s Y

ˆ ) 585921 v(Y
四、分层随机抽样下的比率估计
Xi
0 1
Yi
2 C6 15 样本
yR
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
1,2 1,3 1,4 1,5 1,6 2,3 2,4 2,5 2,6 3,4 3,5 3,6 4,5 4,6 5,6
简单估计 2 6 9.5 15 23.5 7 10.5 16 24.5 14.5 20 28.5 23.5 32 37.5
2 11 N ˆ ˆ 2 ˆ 2 s 2 2 Rs v YR (1 f ) s y R yx 2.10617 10 x


n

ˆ v(Y ˆ ) 458930 s Y R R
• 用简单估计对货运量进行估计
ˆ Ny 2860 1123.2 3212352 Y
相关文档
最新文档