比率估计和回归估计概念、计算和条件

合集下载

抽样技术第3章比估计和回归估计

抽样技术第3章比估计和回归估计

标准差为:
总结:估计域均值是比估计的一个特例,因为 域中的样本容量随样本而变化。如果SRS中域 的样本容量足够大,我们可以用SRS公式来推 导域均值。总体总值估计取决于域的总体容量 是否已知。如果 已知,被估计总体总值等于 。如果未知,则为域中观测值定义一个新变 量 ,而不在域中的观测值为零;这样用估 计域总值。这部分的结论仅针对于SRSs。
3、域估计
经常我们需要对子样本的单独估计;这些 子样本被称为域或子域。比如我们需要对9 月18号飞往纽约的旅客进行一次SRS,然 后估计滞留时间超过1周的国外旅客占所有 国外旅客的比例。对于这样一个调查,存 在有两个研究域:国内和国外旅客。我们 不知道总体中每一个人属于哪个域直到他 被抽取。这样,每一次SRS中,落入每一个 域的旅客数目是一个随机变量,直到调查 设计后才知道具体值。
比较
比估计和回归估计都提出一种方法——利 用与我们感兴趣的变量相关的辅助变量。 我们已知y与x是相关的,且知道 与 之间的 差距,所以我们利用这个信息来调整 并希 望来提高估计的精确度。比估计和回归估 计的估计量来自于我们希望用来描述数据 的模型,但是估计量的随机理论特性不取 决于这些模型。
比估计和回归估计量是一般回归估计量的 特例。总体总值的三个估计量:
比估计中,用于近似MSE的方法也可以用于
回归估计中。令
这样,
利用关系 可得到:
MSE的近似值非常小,如果: 样本容量n足够大; 抽样分数n/N足够大; 足够小; x和y的相关系数R接近于+1或者-1。 标准差可以通过计算样本残差得到。
标准差可以通过计算样本残差得到。令
2.2、差异估计
且,它们的比例为
在比估计的最简单应用中,进行一个容量 为n的简单随机抽样(SRS),x和y的信息都 被用于估计B,,。。

第五章比率估计与回归估计

第五章比率估计与回归估计
比率估计量是有偏估计量,但当样本量增大时其偏倚 将趋于零 。
理论上可以证明,R?, yR ,Y?R 分别为 R,Y ,Y 的近似无
偏估计量,而且对于比率估计量,其方差主要取决于 Yi 与 RX i 之间的差异,当 Yi ? RX i 时,估计量方差将很小。 换言之,比率估计量将有很高的精度。这告诉我们,只 有当两个变量大致成正比例关系时,应用比率 估计量才能使估计精度有较大改进。
5
? 三、 比率估计量方差的估计与置信区间
对于一般的n,比率估计量呈右偏分布,只有
当n>30,
C
<0.1,
x
C
y
<0.1这些条件同时满足时才
能直接用正态分布构造置信区间。 R 的置信区间为
[
]
[ R? ? u? se(R?), R? ? u? se(R?)]
2
2
其中 u? 是标准正态分布的上α /2分位点,0<α <
? 基于这种考虑利用已知的辅助变量信息构造比率估计量就 可使估计精度加以改进。
3
第二节 比率估计
?
一、比率估计量
设对有两个调查变量Y 和X 的总体进行简单随机抽样 ,分别以y,
x表示样本总值 ,以
y , x表示样本均值,以 R? ? y ? y 为样 xx
本比率 ,用 作R? 为总体比率R的估计称为的比率估计 。
精度有较大提高。若
CY

C
,则只需当ρ
2
第一节 问题的提出
? 在许多实际问题中常常涉及两个调查变量(指标) Y 和X 。 对于包含个抽样单元的总体除了对总体信息进行估计外,常 常要估计总体比率R。总体比率在形式上总是表现为两个变 量总值或均值之比。 在涉及两个变量的抽样调查中,有两种情况需要应用比率 估计量。一种情况是利用双变量样本对总体比率进行估计需 应用比率估计量,此时两个变量均为调查变量。另一种情况 是一个变量为调查变量,另一个变量表现为与调查变量有密 切关系的辅助变量,在对调查变量总体总值、总体均值等目 标量进行估计时,利用已知的辅助变量信息构造比率估计量 可以改进估计的精度。

第五章 比估计与回归估计(抽样理论与方法,河南财政学院)

第五章  比估计与回归估计(抽样理论与方法,河南财政学院)

ˆ) d 1 / 2 V(Y R
1 / 2 2 S d2 2 2 2 n d 0 1 / 2 S d 解得:n ,其中 n 0 2 d2 1 / 2 S d2 1 n0 1 N Nd 2
河南财经学院
例:某公司有1000名职工,为了估计职工今年与去年病假工时的比 率,要抽一个容量为n的简单随机样本进行调查。先随机抽了10人 作试点调查,数据如下: 编号 1 2 去年病假工时 12 24 今年病假工时 13 25
N
2 ( Y RX ) i i i 1
N
N 1
1 f n
N
2 ( Y RX ) 0 i i i 1
N 1
ˆ y 对于简单随机抽样, Y 的简单估计为 Y 1 f ˆ V (Y ) n 河南财经学院
2 ( Y Y ) i i 1
N 1
1 f 2 (2 RS x S y R 2 S x )〉 0 n
RS x Sx / X Cx 〉 2 S y 2 S y / Y 2C y 1 特别若C x C y,则〉 ,即比估计较相应的简 单估计更精确。 2
河南财经学院
4.估计R时样本量的确定:
ˆ 的方差上限为V , 如果R
2 2 i 1 i 1 i 1
10
10
10
2
xi 31.265
2 i 1
70
1 10 ˆ x ) 2 3.474 s d ( yi R i 9 i 1 16300 已知X 16300 , X 16 .3 1000 d2 0.012 5 V 2 . 603 10 1 / 2 1.96 2
xi 242 .0, xi 4706 .54

第四章比估计与回归估计

第四章比估计与回归估计

6、相对方差、相对协方差
1 2 2 2 2 (Yi RXi ) SY R S X 2RSxy N 1 2 2 2 Y (CY C X 2C XY )
ˆ ) V (Y ˆ ˆ V ( Y ) V ( R ) 2 R R (cv) 2 2 2 Y Y R 1 f 2 2 (CY C X 2C XY ) n
二、方差估计及置信区间
1、方差估计
1 f 2 ˆ ˆ 2 s 2 2R ˆs ) v1 ( R ) ( s R y x xy 2 nX 1 f 2 ˆ ˆ 2 s 2 2R ˆs ) v2 ( R ) ( s R y x xy 2 nx
两者均是有偏估计量
很难比较两者优劣
y 109.19455 x 100.96622 2 2 s y 8896.8663 s x 7673.0140 s yx 8259.3624
已知上一年全系统工资总额(X)为 70523.16万元。试估计当年全系统的工资 总额及估计的近似标准差(P132) 。
第三节 回归估计
一、定义
2、置信区间
当 n 30, cv( x ) 0.1, cv( y ) 0.1 时,
R ˆ u ˆ), R ˆ u v( R ˆ) v( R
当上述条件不满足时,
ˆ [(1 u 2 c ) u (c 2 c 2 2c ) u 2 (c 2 c 2 c 2 ) ] R yx y x xy y x xy
2 W ˆ 2 h (1 f h ) v(Ylrs ) (nh 1)s yh (1 rh2 ) nh (nh 2)
联合回归估计:在分层随机抽样中,先 对 Y 及 X 作分层简单估计,再 Y 与 Y 作联合回归估计。

第五节比估计跟回归估计(抽样调查理论跟方法-北京商学

第五节比估计跟回归估计(抽样调查理论跟方法-北京商学
相关程度不那么密切( CX 2CY ),此时已知的X信息并 没有较多地提供Y的信息,借助X来推断 Y 也许会“帮倒忙”
假如X与Y是负相关,则更不能采用比估计方法,此时应采用 所谓乘积估计,即:
yp
x y X
,
当 n 充分大时,且满足:
y%p
N
x y X
(5.13)
1 SX X 1 CX
361
3
208.2
608
4
158.5
444
5
110.2
298
6
123.3
349
7
157.7
416
8
154.2
428
9
98.7
258
10
112.7
347
11
125.5
351
12
60.3
158
13
105.7
308
14
80.5
217
15
163.0
492
16
98.7
280
17
137.8
378
18
141.2
386
所谓回归关系就是变量之间的关系不是确定的,是带有 随机影响的。比如身高和体重的关系,身高增加时,一般来 说,体重也会增加,但又不能说一定如此。要确定身高和体 重的关系,一般用回归的方法。这类问题首先是由英国统计 学家高尔顿研究儿子的身高与父亲身高关系时提出的,他发
现儿子的身高有回到家族平均身高的趋势,因而把所得关系 式称为回归方程,于是回归的名词就沿用下来了。
X% 218756 X 218756 379.7847 576
所以该县平均亩产小麦估计为:
Rˆ y 130.625 0.358245(吨 亩) x 364.625

比率估计回归估

比率估计回归估

Ratio and Regression Estimator引例:1802年,拉普拉斯想要估计法国的人口数目。

他获得了一个遍布全国范围的30个社区(commune )的样本,截至1802年9月23日总共有2037615居民。

在包括1802年9月23日以前的三年中,215599个新生儿在30个commune 。

拉普拉斯认为30个commune 的每年注册的新生儿数为215599/3=71866.33。

把2037615按照71866.33 来分,拉普拉斯估计每年每28.35人里有一个注册新生儿。

具有众多人口的乡镇也就可能有同样众多的注册新生儿,通过用28.35乘以全法国年度新生儿总数来估计得出法国人口总数。

调查中都有辅助信息,抽样框也通常有每个单元额外的信息,这些信息能被用来提高我们的估计精度。

一、为什么要使用比率估计/回归估计利用总体的辅助信息提高估计的精度。

辅助指标的选择:第一,辅助指标应该与调查指标有较好的正的相关关系。

第二,xy的抽样分布较u x y 的抽样分布变动性要小得多。

第三,辅助指标的总体总量或总体均值已知。

比率估计、回归估计需要有足够的样本量才能保证估计的有效。

有偏估计:当样本量足够大时,估计的偏倚趋于0。

简单地想要估计一个比率:假定总体由面积不同农业用地构成,i y i =地谷物的产量,i x i =地的面积,B=每亩谷物的平均产量。

想要估计一个总体总数,但总体大小N 是未知的。

但是我们知道,于是可以通过y N ty =ˆ来估计N,由此我们可以使用不同于总数N 的方法而是采用辅助变量来进行测量。

要估计渔网中长度长于12cm 的鱼的总数,抽取一个鱼的随机样本,估计长度长于12cm 的鱼所占的比例,用鱼的总数N 乘以这个比例即可得到,但如果N 未知不能使用。

能称量渔网中鱼的总重量。

鱼的长度与其重量相关。

xt y tx yr =ˆ 调整来自样本的估计量以便它们反映人口统计学的总量。

在一所具有4000名学生的大学提取一个400个学生的简单随机样本,此样本可能包含240个女性,160个男性,且其中被抽中的84名女性和40名男性计划以教学为毕业后的职业。

比估计与回归估计

比估计与回归估计
有偏的估计,只有样本量比较大时,偏误可以忽略不计 。
Exceltek Electronics (HK) Ltd Confidential
举例
• 例1:设某县农村的33户家庭收支调查资料,其中家庭人数X1,
收入X2,食品支出Y, (假设是月度资料,数据省略,仅说明问题 ) 要求估计: (1)每个家庭每月用于食品的支出; (2)平均每人用于食品的支出; (3)食品支出占收入的比重。 分析:在要求(2)中,要求估计平均每人用于食品的支出,显 然须将33 户的食品支出相加,33户家庭人数相加,然后相比, 因此这本身就是一个比率估计的问题。又如要求(3)中要求估 计食品支出占收入的比重,看来似乎是个比例问题,但从现有材 料以户作为抽样单位,食品支出和收入都是随机变量,因此也是 一个比率估计问题。只有要求(1)是一个均值的简单估计问题 。
Exceltek Electronics (HK) Ltd Confidential
第三节 回归估计
• 一、定义
➢ 回归估计是通过对调查变量Y以及该变量有线 性关系的辅助变量X建立回归方程,然后运用 回归方程对总体指标进行推断、估计的方法。
✓ 在直角坐标系中,比估计表现为通过原点的回 归直线,而回归估计可以通过原点,也可以不 通过。
6、相对方差、相对协方差
1
N 1
(Yi
RXi)2
SY2
R
2
S
2 X
2RSxy
Y 2 (CY2 CX2 2CXY )
(cv)2
V (YˆR ) Y2
V (YˆR Y2
)
V (Rˆ) R2
1 f n
(CY2
C
2 X
2CXY )
Exceltek Electronics (HK) Ltd Confidential

比率估计的名词解释

比率估计的名词解释

比率估计的名词解释比率估计是统计学中的一种常用方法,用于根据样本数据推断总体的特征。

它是通过计算不同群体之间的比率来进行估计,从而揭示总体的分布和特征。

本文将对比率估计的概念、应用场景和计算方法进行详细解释,并探讨其在实际问题中的意义和局限性。

一、比率估计的概念比率估计是统计学中重要的参数估计方法之一。

所谓比率,是指两个相关群体之间数量上的关系,可以是两个互斥事件之间的比率,也可以是两个不互斥事件之间的比率。

在估计过程中,我们通常使用样本数据来推断总体的比率。

比率估计的目标是根据样本的统计结果,推断出总体中某一特征的比例。

二、比率估计的应用场景比率估计广泛应用于各个领域,具有丰富的应用场景。

以下列举几个常见的应用示例。

1. 市场调研:比率估计可以用于估计不同市场的消费者群体中,对某一产品的购买比例。

通过抽样一部分消费者,并了解他们对产品的偏好和购买行为,可以推断整个市场的购买比例,为制定营销策略提供依据。

2. 医学研究:比率估计可以在临床研究中发挥重要作用。

例如,对于某种疾病的发病率,我们可以通过抽样患者群体,并观察其具体情况,从而估计总体患病率。

这对医生了解病情、预防控制和治疗方案的制定都具有重要意义。

3. 教育评估:比率估计可以用于教育领域的评估,例如统计学习成绩的比率。

通过抽样学生群体,并对其进行考试和测评,可以推断全体学生的学习水平,从而更好地指导教学和评估教育质量。

三、比率估计的计算方法在比率估计中,我们通常使用样本比例来估计总体比例。

样本比例是指在样本中具有某一特征的个体数与样本总个体数之间的比值。

根据中心极限定理,当样本容量足够大时,样本比例的抽样分布会逼近于正态分布。

根据这一原理,我们可以使用置信区间来估计总体比例。

置信区间是用于描述估计值的不确定性范围的统计概念。

在比率估计中,置信区间给出了总体比例真值所在的可能范围。

通常,我们使用95%的置信水平来构造置信区间,这意味着在一百次实验中,大约有95次的置信区间会包含总体比例的真实值。

比估计与回归估计

比估计与回归估计

L
ˆ YRS
L yh ˆ =∑ X h = ∑ YRh h xh h
L
13
在分层随机抽样中, 在分层随机抽样中 , 若每层的样本量 n h 都 ˆ 较大, 的近似无偏估计。其方差为: 较大,则 YRS 为Y的近似无偏估计。其方差为:
ˆ ) ≈ ∑ N 2 (1 − f h ) ( S 2 + R 2 S 2 − 2 R ρ S S ) V (YRS h yh h xh h h yh xh nh h
3
在实际工作中, 在实际工作中 , 为了充分发挥比估计的优越 在应用比估计时应考虑两条: 性,在应用比估计时应考虑两条: 一是选与调查变量有较密切的正相关关系的 变量作为辅助变量。 变量作为辅助变量 。 因为如果辅助变量与调查变 量的关系不密切, 各自独立变化, 量的关系不密切 , 各自独立变化 , 则对比估计起 不了应有的辅助作用。 不了应有的辅助作用。 二是样本容量要比较大。 二是样本容量要比较大 。 因为比估计是有偏 倚的,只有当样本容量n比较大时, 倚的,只有当样本容量n比较大时,其偏倚才能比 较小,比估计才更加有效。 较小,比估计才更加有效。
18
回归估计的主要特点有: 回归估计的主要特点有 主要特点 回归估计充分利用了有关的辅助变量资料以有 效地提高估计的精度; 效地提高估计的精度; 回归估计中要求辅助变量的总体均值或总和事 先已知; 先已知; 回归估计一般只适用于有限总体, 回归估计一般只适用于有限总体,因为只有有 限总体才可能计算出辅助变量的总体均值和总和; 限总体才可能计算出辅助变量的总体均值和总和; 回归估计量一般优于比估计量和简单估计量。 回归估计量一般优于比估计量和简单估计量。
第五章
第一节 第二节 第三节 第四节

第五章比率估计与回归估计

第五章比率估计与回归估计

17

三、 β 取样本回归系数情形
若β 需根据样本确定,一个合理的选择是取β 为样 本回归系数
n
b
此时 Y 的回归估计量
s yx
2 sx

( y y)( x x)
i 1 i i
( xi x) 2
i 1
n
y lr y b( x X )
为一复杂估计量,不再具有无偏性。
18

四、回归估计与比率估计及简单估计的大样本比较
对于大的样本量,总有
V ( y lr ) V ( y )
这就是说在大样本下回归估计总是优于简单估计,仅在ρ =0时两 者效果相同。
V ( y lr ) V ( y R ) 的充分必要条件为
2 2 2 SY (1 2 ) S Y +R 2 S X 2R SY S X

3
第二节

比率估计
ˆ y y 为样 R x x
一、比率估计量 设对有两个调查变量Y 和X 的总体进行简单随机抽样 ,分别以y, x表示样本总值 ,以 本比率 ,用
y, x 表示样本均值,以
ˆ 作为总体比率R的估计称为的比率估计 。 R
比率估计量除了使用调查变量样本信息外,还要使用辅助变量 总体信息与样本信息,而且是非线性估计量。这类估计量称为复杂 估计量。由于比率估计量使用的信息比简单估计量多,因而有可能 比简单估计量有更高的精度。同时由于比率估计量是非线性估计量, 因而对其性质的研究比对简单估计量要复杂得多。
i 1 i i
12
ˆ ˆ YR = R X = 18459 ×86436=97573.52(万元) 16352
ˆ N (1 f ) ( yi Rxi ) 2 ˆ v(YR ) i 1 n n 1

第五章-比率与回归估计

第五章-比率与回归估计

大致成正比例关系时,应用比率估计量才能使
估计精度有较大改进.
若分别以SY2
,
S
2 X
表示两个变量的总体方差,
以SYX表示总体协方差, 表示总体相关系数
SY2
1 N-1
(Yi Y )2
S
2 X
1 N-1
(Xi X )2
SYX
1 N-1
(Yi Y )( Xi X )
SYX
SY SX
X 或总体总值X已知,可以利用辅助变量构造
调查变量总体均值,总体总值Y的比率估计量为:
-
Y
yR
RX
y x
X,
YR
RX
y x
X
N
yR
比率估计量 R, yR ,Y R 中任何两个之间都仅差一个
常数,性质相同.
二、比率估计量的偏差与均方误差
比率估计量是有偏的,但当样本量增大时其偏 差将趋近于零。
下表是容量为5的总体,列出了两个变量的值, 计算全部可能的n=3的简单随机样本指标。
y
13.7967,
x1
24.43899,
x2
38.4444,
s
2 y
35.4958,
s2 x1
74.6789,
s2 x2
174.9671, syx1
42.26167, syx2
46.5118
1 f 0.0522332,现种植面积和良种比例为辅助变量对 n
皮棉产量进行比率估计。
六、乘积估计
当辅助变量x与调查变量y成负相关关系时, 不能用比例估计,应改用乘积估计,
设 yRk 是Y 的基于第k个辅助变量的比率估计,
则Y 的多元比率估计量为

比估计与回归估计

比估计与回归估计

i 1
i 1
i 1
i 1
sd 2

1 9
10 i 1
( yi
Rˆxi )2
3.474
已知X 16300, X 16300 16.3 1000
V

d2
1 / 2

0.012 1.962
2.603105
n0
Sd2 X 2V
502,n n0 1 n0
V (Rˆ) MSE(Rˆ)
又 MSE(Rˆ)

E(Rˆ

R)2
E(y Rx)2 X2
对每个总体单元,令Gi Yi RXi,i 1,,N
则G Y RX 0
g y Rx
E(y Rx)2 E(g)2 E(g 0)2
E(g G )2 V(g)
由sd2

1 n 1
n
(yi
i 1

Rˆxi)2
X未知时,也可由x估计。
Y 4.估计
时样本量的确定:
R
如果置信度为1 的绝对误差限为d ,
当n大时,V(YˆR)
1
n
f
Sd2,其中Sd2

1 N 1
N
(yi
i 1
Rxi)2
d 1 /2 V(YˆR)
S2 2 1 / 2 d
N
1 f
n
S
2 g
1 f n
(Yi

RX
)2
i
i 1
N 1
N
V (Rˆ)

M SE( Rˆ )

1 f nX 2

比估计和回归估计(抽样)

比估计和回归估计(抽样)

(2)若调查指标为Y , X为辅助变量 X X i 或X X / N已知。 则Y 及Y的比(比率)估计量分别定义为: y ˆX YR y R X R x y ˆ ˆX R ˆX Y R X Ny R NR x ˆ ˆ ˆ 通称为比估计量。 我们将R、Y 、Y
2. 比估计与回归估计的使用 条件 • (1)调查主要指标与辅助变量 之间有良好的线性正相关关系 • (2)辅助变量的总体总量或均 值已知。
第二节 比估计
• 一、定义及基本性质 • (一)定义 • 1.比估计,也叫比估计量,是指以 下三个估计量。
( 1 )对简单随机抽样,若y、x 是样 本两个指标的均值,则总体这两个 指标总量或均值的比值(率)为: Y Y R 可以用: X X y ˆ ˆ 是比值估计量。 R 进行估计。R x
样本号j
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
样本包含单元号 1, 2, 3, 4 1, 2, 3, 5 1, 2, 3, 6 1, 2, 4, 5 1, 2, 4, 6 1, 2, 5, 6 1, 3, 4, 5 1, 3, 4, 6 1, 3, 5, 6 1, 4, 5, 6 2, 3, 4, 5 2, 3, 4, 6 2, 3, 5, 6 2, 4, 5, 6 3, 4, 5, 6
2 (S y R 2 S x2 2 RS yx ) 2 (S y R 2 S x2 2 RS x S y )
Y (C C 2C yx )
2 2 y 2 x
1 f 2 (C y C x2 2C yx ). n
ˆ ) N 2 X 2V ( R ˆ ) MSE (Y ˆ ) V (Y R R N (1 f ) 2 2 2 ( S y R S x 2 RS yx ) n N 2 (1 f ) 2 ( S y R 2 S x2 2 RS x S y ) n 1 f 2 2 Y (C y C x2 2C yx ) n ˆ ) 1 f V (Y 2 2 R ( C C y x 2C yx ). 2 n Y

第四章 比率回归估计

第四章 比率回归估计
《抽样技术》第四章 比率与回归估计 SAMPLING
第四章 比率、回归估计
§4.1 引言 §4.2 比率估计 §4.3 回归估计
《抽样技术》第四章 比率与回归估计 SAMPLING
§ 4.1 引言
对于比率和回归估计的基本认识 ➢ 本章讨论的问题是简单估计量的延伸.简单估计量
只涉及所估计的指标本身,不需要利用其他信息。 ➢ 在实际调查中,调查常是多指标的,一个指标的
《抽样技术》第四章 比率与回归估计 SAMPLING
应用条件
与简单估计量比较,比估计量与回归估计量都 是非线性的较为复杂的估计量.但是只要我们所 调查的主要指标与辅助变量之间有良好的线性 相关关系,通常是正相关关系,则比估计的精度比 简单估计高,而回归估计总是优于简单估计,而且 在通常条件下较比估计的精度高.
《抽样技术》第四章 比率与回归估计 SAMPLING
《抽样技术》第四章 比率与回归估计 SAMPLING
《抽样技术》第四章 比率与回归估计 SAMPLING
《抽样技术》第四章 比率与回归估计 SAMPLING
分层随机抽样条件下的比率估计
将比估计的思想与技术用于分层随机样 本时,有两种可行的方法: ➢ 一种是对每层样本考虑比估计,然后进行加 权平均或相加,所得估计量称为分别比估计; ➢ 另一是针对目标变量和辅助变量先求总体均 值或总和的分层估计,然后用它们构造比估 计,所得的估计量称为联合比估计。
➢ 利用调查指标与辅助变量的相关关系(成比例关系或线 性回归关系)可以构造另一类估计量,即比估计量或回 归估计量,例如先估计总体中家庭用于食品支出对总支 出的比值,然后根据总体家庭平均支出,估计家庭平均用 于食品支出.
➢ 这种估计仍是估计总体总量或均值,但是它需要用到该 指标对辅助变量的比例关系或线性回归关系.
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

X 或总体总值X已知,可以利用辅助变量构造
调 查 变 量 总 体 均 值 ,总 体 总 值 Y的 比 率 估 计 量 为 :
-
Y
yR
R
X
y x
X,
y
Y R R X x X N yR
比 率 估 计 量 R, yR,Y R 中 任 何 两 个 之 间 都 仅 差 一 个
常 数 ,性 质 相 同 .
n
N 1
当 Yi RX i,即 Yi X i R时 ,估 计 量 方 差 将 很 小 .
比 率 估 计 量 将 有 很 高 的 精 度 .只 有 当 两 个 变 量
大 致 成 正 比 例 关 系 时 ,应 用 比 率 估 计 量 才 能 使
估计精度有较大改进.




S
2 Y
,
S
2 X




y
7.33 7.67 8.67 8.33 9.33 9.67 8.67 9.67 10.00 10.67
Байду номын сангаас90.01
x
R
yR
4.33 1.6928 10.1570
5.00 1.5340 9.2040
5.33 1.6266 9.7598
5.67 1.4691 8.8148
6.00 1.5550 9.3300
则 CY SY Y ,C X SX X
1 f V (R)
n
R
2
(
C
2 Y
C
2 X
2CYCX )
V (yR)
1 f n
2
Y
(
C
2 Y
C
2 X
2CYCX )
V (Y R )
Y 2 (1 n
f
)
(C
2 Y
C
2 X
2CYCX )
三、比率估计量方差的样本估计与比 率估计量的置信区间
比率估计量的方差公式中都涉及有关未知
比率估计与回归估计概 念、计算和条件
比率估计与回归估计概念、 计算和条件
掌握总体比率、比率估计量及回归估计量的概 念
了解比率估计量、回归估计量的偏差、方差及 方差的估计量
掌握应用比率估计量及回归估计量的条件。
第一节 问题提出
有时涉及两个调查变量Y和X,除了估计两个变 量的总值和均值,还常常要估计两个变量的总 体均值或总体总值之比,称为总体比率R。
nX
n
v 2
(R
)
1
f
2
( yi R xi )2
i 1
n 1
1
f
2
(
s
2 y
2
R
s
2 x
2 R s yx )
nx
nx
s
2 y
1 n 1
n i 1
( yi
y
)
2
,
s
2 x
1 n 1
n i1
( xi
x)2,
s yx
1 n 1
n i1
( yi
y )( xi
x),类 似 地 , 估 计 V
( y R ),V
二、比率估计量的偏差与均方误差
比率估计量是有偏的,但当样本量增大时其偏 差将趋近于零。
下表是容量为5的总体,列出了两个变量的值, 计算全部可能的n=3的简单随机样本指标。
i 1234 5
y
6
i
7
9
1
1 0
3
x3468 9
i
样本号
1
2
3
4
5
y
6
7
8
9
10
合计
样本包含 的单位号 (1,2,3) (1,2,4) (1,2,5) (1,3,4) (1,3,5) (1,4,5) (2,3,4) (2,3,5) (2,4,5) (3,4,5)
(Y
R)
总体比率的内涵可以有不同,有时是总体均值, 有时是总体比例,有时是一般的相对数,但在 形式上总是表现为两个变量总值或均值之比。
总体比率的含义
例如Y,X分别表示调查单位产量和播种面积, 则R为平均亩产,即总体均值。例如Y,X分别表 示调查单位60岁以上老年人数和家庭人口数, 则R表示全地区60岁以上老年人比例,即总体 比例。若Y,X分别表示家庭男女人口数,则R表 示全地区性别比。
全部可能样本10个,E( R )=
1
10
Ri 1.51196
10 i1
R的偏差为B(R) E( R )-R=0.01196
yR 的偏差为B( yR ) E( yR ) Y 0.07184
当样本容量更大时,偏差会更小.
在简单随机抽样下当n
,B ( R )具 有
1
的阶
n
因此只要样本容量n比较大, 就有E( R ) R
总体参数,因此必须用样本估计,通常用
1
n-1
n i1
( yi
R
xi )2作为
1 N-1
N i1
(Yi
R
Xi )2的估
计,这个估计是有偏的,当n 时,偏差 0.
当样本容量较大时,可以用
n
v1 ( R )
1
f
2
nX
( yi R xi )2
i1
n 1
1
f
2
(
s
2 y
2
R
s
2 x
2
R
s yx )
总体比率和总体比例区别:P是总体调查单位 数N已知,只涉及一个调查变量,而R涉及两 个调查变量,均需调查。
第二节 比率估计
一、比率估计量
在简单随机抽样下,若分别以y, x表示样本总值,以
y, x表示样本均值,以R表示样本比率,
yy
R
x
x
,
用R作为总体比率R的估计,称之为R的比率估计.
若X是与Y高度相关的辅助变量且总体均值
R
2
S
2 X
2R
SY S X
)
nX
V
(yR)
1 n
f
(
S
2 Y
R
2
S
2 X
2 R S YX
)
1 n
f
(
S
2 Y
R
2
S
2 X
2R
SY S X
)
V
(Y R )
N
2 (1 n
f
)
(
S
2 Y
R
2
S
2 X
2 R S YX )
N
2 (1 n
f
)
(S
2 Y
R
2S
2 X
2R SYSX )
若 以 CY ,CX表 示 两 个 变 量 的 总 体 变 异 系 数 ,
E ( y R ) Y , E (Y R ) Y .
R, yR,Y R 分别是R,Y ,Y的近似无偏估计量.
MSE( R ) V( R )
V
(R
)
1
f
2
(Yi R X i )2 N 1
nX
V
(
y
R
)
1
n
f
(Yi R X i )2 N 1
N 2 (1 f )
V (Y R )
(Yi R X i )2







,

S

YX






,








S
2 Y
1 N -1
(Yi Y )2
S
2 X
1 N -1
(X i X )2
1
SYX N -1 (Yi Y )( X i X )
SYX SY S X
V
(R )
1 f
2
(
S
2 Y
R
2S
2 X
2 R S YX
)
nX
1 f
2
(
S
2 Y
6.67 1.4498 8.6987
6.00 1.4450 8.6700
6.33 1.5276 9.1659
7.00 1.4286 8.5714
7.67 1.3911 8.3468
60.00 15.1196 90.7184
Y 45,Y 9, X 30, X 6, R Y X 45 / 30 1.5
相关文档
最新文档