比估计与回归估计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
✓ 比估计只能有一个辅助变量,而回归估计可以 利用多个辅助变量。
Exceltek Electronics (HK) Ltd Confidential
➢ 总体均值的回归估计量定义为:
ylr y ( X x) y (x X )
➢ 总体总量的回归估计量定义为:
✓
差估Yˆl计r 量 Nylr
6、相对方差、相对协方差
1
N 1
(Yi
RXi)2
SY2
R
2
S
2 X
2RSxy
Y 2 (CY2 CX2 2CXY )
(cv)2
V (YˆR ) Y2
百度文库
V (YˆR Y2
)
V (Rˆ) R2
1 f n
(CY2
C
2 X
2CXY )
Exceltek Electronics (HK) Ltd Confidential
例:某街区有2000户居民家庭,按简单随机抽样方法 抽出其中33户家庭,调查其两项指标:食物消费额(y) ,月收入(x),调查结果如下:
食试物用消比费率xyii所估占计9554比方8403重法.2的,置以x信i92 5y区i%22间8的31。可6001靠6640程64度估xy计月16收00入2中72
的同时,也测定其重量,得到橘子的含糖量与重量之间的一个比率
,如果我们知道橘子的总重量,就可以通过以下的关系求得总含糖
量:
总含糖量
总重量
样本含糖量 样本重量
Yˆ X y Exceltek Electxronics (HK) Ltd Confidential
第二节 比估计
• 一、定义及基本性质
1、总体比率: ➢ 样本比率:
有偏的估计,只有样本量比较大时,偏误可以忽略不计 。
Exceltek Electronics (HK) Ltd Confidential
举例
• 例1:设某县农村的33户家庭收支调查资料,其中家庭人数X1,
收入X2,食品支出Y, (假设是月度资料,数据省略,仅说明问题 ) 要求估计: (1)每个家庭每月用于食品的支出; (2)平均每人用于食品的支出; (3)食品支出占收入的比重。 分析:在要求(2)中,要求估计平均每人用于食品的支出,显 然须将33 户的食品支出相加,33户家庭人数相加,然后相比, 因此这本身就是一个比率估计的问题。又如要求(3)中要求估 计食品支出占收入的比重,看来似乎是个比例问题,但从现有材 料以户作为抽样单位,食品支出和收入都是随机变量,因此也是 一个比率估计问题。只有要求(1)是一个均值的简单估计问题 。
✓
简单估计量
✓ 1 ylr y X比估x计量
0 ylr y
y
x
ylr
y x
X
因此说,简单估计量和比估计量都是回归估计的特例。
Exceltek Electronics (HK) Ltd Confidential
• 二、β为设定常数
Yˆlr y 0 (X x)
V
(Yˆlr
)
1
n
f
基于这种考虑利用已知的辅助变量信息构造比率估计量就可使 估计精度加以改进。
➢ 比估计 ➢ 回归估计
Exceltek Electronics (HK) Ltd Confidential
• 二、辅助变量的选择
➢ 辅助变量与调查变量之间存在较密切的相关性或线性关 系;
➢ 辅助变量的有关资料是能够事先掌握的; ➢ 要求样本容量比较大。因为小样本时,比率估计是一个
。 ➢两种方法的优劣可以归结为相关系数
是否大于1/2。
Exceltek Electronics (HK) Ltd Confidential
例:某系统共有N=687个单位,为预估当年全系统的 工资总额,用简单随机抽样抽取一个n=26个单位的样 本,对样本的资料统计如下:
已知y 上 1一0年9.1全9系45统5 工x资总10额0.(96X6)22为70523.16万元。 试估sy2计 当88年96全.8系66统3 的s工x2 资 7总6额73及.01估4计0 的s近yx 似 8标2准59差.36。24
(S
2 y
0
S
2 x
20 S xy )
v(Yˆlr
)
1
n
f
(
s
2 y
0sx2
20sxy)
Exceltek Electronics (HK) Ltd Confidential
• 例:设某县有53个乡镇,已知某年度小麦总播种面积 为795000亩,现抽取10个乡调查结果为总播种面积为 152000亩,小麦总产量6262.4万公斤,要求依以上资 料对该县平均每个乡镇的小麦总产量和全县的小麦总 产量作出回归分析。(β0=0.04)
在涉及两个变量的抽样调查中,有两种情况需要应用比率估计 量。一种情况是利用双变量样本对总体比率进行估计需应用比率 估计量,此时两个变量均为调查变量。另一种情况是一个变量为 调查变量,另一个变量表现为与调查变量有密切关系的辅助变量 ,在对调查变量总体总值、总体均值等目标量进行估计时,利用 已知的辅助变量信息构造比率估计量可以改进估计的精度。
Exceltek Electronics (HK) Ltd Confidential
例:交通运输统计中有三个重要的指标,即运量、周转量 与平均运距,其中平均运距是总周转量除以运量所得的商 ,为估计公路载货汽车的平均运距,在总体中用简单随机 抽样抽取32辆货车,记录每辆车在一个月内的运量xi与周 转量yi,统计计算结果如下:
y 然后计算样本平均数 ,来估计总体平均数 Y,最后用橘子的总数
N乘以每个橘子的平均含糖量来估计总的含糖量。这种方法实行起 来比较苦难,因为橘子的总数N不容易数清,此外,如果橘子的大 小差别很大时也不容易估计精确。
思路二:利用一个辅助变量,因为每个橘子的含糖量yi与他们的重量
xi有密切联系,呈现高度相关。因此当我们在测定n个橘子的含糖量
Rh
Yh Xh
Rˆh
yh xh
Yh Rh X h
Yˆh Rˆh X h yRh
ˆ yh
Y W Y Y y W y W X RS
h h RS
RS
h Rh
h
h
x Exceltek Electronics (HK) Ltd Confidential
h
YˆRS NyRS
(S
2 y
R
2
S
2 x
2RSxy)
1 f n
(S
2 y
R
2
S
2 x
2RSxS y )
Exceltek Electronics (HK) Ltd Confidential
• 三、比估计的效果分析 ➢如果 2CxCy Cx2两 0种方法的估计效果
基本相同。 ➢如果 2CxCy Cx2比 估0 计优于简单估计
➢ 均是有偏估计量
➢ 很难比较两者优劣
Exceltek Electronics (HK) Ltd Confidential
2、置信区间
➢ 当 n 30, cv(x) 0时.1,, cv( y) 0.1
Rˆ
u
v(Rˆ ), Rˆ u
v(Rˆ )
▼当上述条件不满足时,
Exceltek Electronics (HK) Ltd Confidential
R Y or R Y
X
X
➢
根据样本中调查变量Rˆ 与辅y助变o量r 的R资ˆ 料 ,y通过计算样本 比率来估计总体比率,进x而利用此资料对x调查标志的总
体平均数和总体标志总量进行估计的方法称为比估计。
Exceltek Electronics (HK) Ltd Confidential
2、样本比率对总体比率的估计是有偏误的。 ➢ 当样本容量n充分大时,这种偏误趋近于0 3、估计总体平均数及总体标志总量
R Y Y RX X
➢ R 称Y为比估Y计量RX X
Rˆ , Yˆ , Yˆ
Yˆ RˆX y X x
Yˆ RˆX y X NRˆX x
Exceltek Electronics (HK) Ltd Confidential
4、样本估计量的均方误差
MSE(Rˆ) 1 f n
1 N 1
Exceltek Electronics (HK) Ltd Confidential
例2:有一批橘子,欲估计其含糖总量。
• 分析:确切的含糖总量只有把全部橘子做成橘子汁以后进行加工提 炼才能得到,因此必须用抽样的方法。
思路一:假设现在用简单随机抽样的方法从中抽取n个橘子为样本, 一种简单的估计推断方法是测定每个橘子的含糖量y1,y2,…yn。
2 y
(1
2
)
v(Yˆlr
)
1
n
f
se2
1 f n
n n
1 2
(s
2 y
b2sx
2
)
Exceltek Electronics (HK) Ltd Confidential
• 例1:某系统共有N=687个单位,为预估当年全系统的工 资总额,用简单随机抽样抽取一个n=26个单位的样本,对 样本的资料统计如下:
四、回归估计量与比估计量及一般样本 平均数的比 较
➢ 在大样本下,回归估计总是优于简单估计量。 ➢ 在大样本下,回归估计总是优于比估计。
Exceltek Electronics (HK) Ltd Confidential
第四节 分层比估计与分层回归估计
• 一、分别比估计与联合比估计
➢ 分别比估计:在分层随机抽样中,对每层样本考虑比 估计,然后进行加权平均或相加,所得的估计量称为 分别比估计
1 X2
(Yi RXi )2
5、估计量的方差
V (Rˆ) MSE(Rˆ) 1 f 1 1 n N 1 X 2
(Yi RXi )2
V (YˆR ) V (RˆX ) X 2V (Rˆ) V (YˆR ) V (NYˆR ) N 2V (YˆR ) N 2 X 2V (Rˆ)
Exceltek Electronics (HK) Ltd Confidential
第四章 比估计与回归估计
• 第一节 概述 • 第二节 比估计 • 第三节 回归估计 • 第四节 分层比估计与分层回归估计
Exceltek Electronics (HK) Ltd Confidential
第一节 概述
• 一、问题的提出
在许多实际问题中常常涉及两个调查变量(指标)Y 和X 。对 于包含N个抽样单元的总体除了对总体信息进行估计外,常常要 估计总体比率R。总体比率在形式上总是表现为两个变量总值或 均值之比。
二、方差估计及置信区间
1、方差估计
v1(Rˆ )
1 nX
f
2
(
s
2 y
Rˆ
2
s
2 x
2Rˆsxy )
v2
(Rˆ )
1 nx
f
2
(
s
2 y
Rˆ
2
s
2 x
2Rˆsxy )
v(YˆR
)
1
n
f
(
s
2 y
Rˆ 2 sx2
2Rˆsxy )
v(YˆR )
N 2 (1 n
f
)
(s
2 y
Rˆ
2
s
2 x
2Rˆsxy )
试估计平均运距R并给出它90%的置信区 间。
yi 295500 xi 5974
s
2 y
10029993
sx2 4177.19
sxy 199726.1
Exceltek Electronics (HK) Ltd Confidential
➢相关系数:
Sxy
Sx Sy
1 f V (yR) n
上归一sy估y2年计1全计8089系算9.16统当9.84工年656资全53总系x额统sx2(的1X0工7)06资.9为7总637.600额25122及430.估16计万sy的元x 近。8似试25标运9准.用36差回2。4
Exceltek Electronics (HK) Ltd Confidential
Rˆ[(1 u2cyx ) u
其中:
(c
2 y
c
2 x
2cxy
)
u2
(c
c2 2
yx
cx2y
)]
1 u2cx2
c
2 y
s
2 y
y2
1 f n
s
2 y
y2
, cx2
s
2 x
x2
1 f n
s
2 x
x2
c
2 yx
s yx yx
1 f n
syx yx
Exceltek Electronics (HK) Ltd Confidential
Exceltek Electronics (HK) Ltd Confidential
第三节 回归估计
• 一、定义
➢ 回归估计是通过对调查变量Y以及该变量有线 性关系的辅助变量X建立回归方程,然后运用 回归方程对总体指标进行推断、估计的方法。
✓ 在直角坐标系中,比估计表现为通过原点的回 归直线,而回归估计可以通过原点,也可以不 通过。
Exceltek Electronics (HK) Ltd Confidential
三、 β为样本回归系数
Yˆlr y b( X x)
b (xi x)(yi y) syx
(xi x)2
sx2
MSE(Yˆlr
)
V
(Yˆlr
)
1
n
f
(S
2 y
b2
S
2 x
2bS yx )
1 n
f
S
Exceltek Electronics (HK) Ltd Confidential
➢ 总体均值的回归估计量定义为:
ylr y ( X x) y (x X )
➢ 总体总量的回归估计量定义为:
✓
差估Yˆl计r 量 Nylr
6、相对方差、相对协方差
1
N 1
(Yi
RXi)2
SY2
R
2
S
2 X
2RSxy
Y 2 (CY2 CX2 2CXY )
(cv)2
V (YˆR ) Y2
百度文库
V (YˆR Y2
)
V (Rˆ) R2
1 f n
(CY2
C
2 X
2CXY )
Exceltek Electronics (HK) Ltd Confidential
例:某街区有2000户居民家庭,按简单随机抽样方法 抽出其中33户家庭,调查其两项指标:食物消费额(y) ,月收入(x),调查结果如下:
食试物用消比费率xyii所估占计9554比方8403重法.2的,置以x信i92 5y区i%22间8的31。可6001靠6640程64度估xy计月16收00入2中72
的同时,也测定其重量,得到橘子的含糖量与重量之间的一个比率
,如果我们知道橘子的总重量,就可以通过以下的关系求得总含糖
量:
总含糖量
总重量
样本含糖量 样本重量
Yˆ X y Exceltek Electxronics (HK) Ltd Confidential
第二节 比估计
• 一、定义及基本性质
1、总体比率: ➢ 样本比率:
有偏的估计,只有样本量比较大时,偏误可以忽略不计 。
Exceltek Electronics (HK) Ltd Confidential
举例
• 例1:设某县农村的33户家庭收支调查资料,其中家庭人数X1,
收入X2,食品支出Y, (假设是月度资料,数据省略,仅说明问题 ) 要求估计: (1)每个家庭每月用于食品的支出; (2)平均每人用于食品的支出; (3)食品支出占收入的比重。 分析:在要求(2)中,要求估计平均每人用于食品的支出,显 然须将33 户的食品支出相加,33户家庭人数相加,然后相比, 因此这本身就是一个比率估计的问题。又如要求(3)中要求估 计食品支出占收入的比重,看来似乎是个比例问题,但从现有材 料以户作为抽样单位,食品支出和收入都是随机变量,因此也是 一个比率估计问题。只有要求(1)是一个均值的简单估计问题 。
✓
简单估计量
✓ 1 ylr y X比估x计量
0 ylr y
y
x
ylr
y x
X
因此说,简单估计量和比估计量都是回归估计的特例。
Exceltek Electronics (HK) Ltd Confidential
• 二、β为设定常数
Yˆlr y 0 (X x)
V
(Yˆlr
)
1
n
f
基于这种考虑利用已知的辅助变量信息构造比率估计量就可使 估计精度加以改进。
➢ 比估计 ➢ 回归估计
Exceltek Electronics (HK) Ltd Confidential
• 二、辅助变量的选择
➢ 辅助变量与调查变量之间存在较密切的相关性或线性关 系;
➢ 辅助变量的有关资料是能够事先掌握的; ➢ 要求样本容量比较大。因为小样本时,比率估计是一个
。 ➢两种方法的优劣可以归结为相关系数
是否大于1/2。
Exceltek Electronics (HK) Ltd Confidential
例:某系统共有N=687个单位,为预估当年全系统的 工资总额,用简单随机抽样抽取一个n=26个单位的样 本,对样本的资料统计如下:
已知y 上 1一0年9.1全9系45统5 工x资总10额0.(96X6)22为70523.16万元。 试估sy2计 当88年96全.8系66统3 的s工x2 资 7总6额73及.01估4计0 的s近yx 似 8标2准59差.36。24
(S
2 y
0
S
2 x
20 S xy )
v(Yˆlr
)
1
n
f
(
s
2 y
0sx2
20sxy)
Exceltek Electronics (HK) Ltd Confidential
• 例:设某县有53个乡镇,已知某年度小麦总播种面积 为795000亩,现抽取10个乡调查结果为总播种面积为 152000亩,小麦总产量6262.4万公斤,要求依以上资 料对该县平均每个乡镇的小麦总产量和全县的小麦总 产量作出回归分析。(β0=0.04)
在涉及两个变量的抽样调查中,有两种情况需要应用比率估计 量。一种情况是利用双变量样本对总体比率进行估计需应用比率 估计量,此时两个变量均为调查变量。另一种情况是一个变量为 调查变量,另一个变量表现为与调查变量有密切关系的辅助变量 ,在对调查变量总体总值、总体均值等目标量进行估计时,利用 已知的辅助变量信息构造比率估计量可以改进估计的精度。
Exceltek Electronics (HK) Ltd Confidential
例:交通运输统计中有三个重要的指标,即运量、周转量 与平均运距,其中平均运距是总周转量除以运量所得的商 ,为估计公路载货汽车的平均运距,在总体中用简单随机 抽样抽取32辆货车,记录每辆车在一个月内的运量xi与周 转量yi,统计计算结果如下:
y 然后计算样本平均数 ,来估计总体平均数 Y,最后用橘子的总数
N乘以每个橘子的平均含糖量来估计总的含糖量。这种方法实行起 来比较苦难,因为橘子的总数N不容易数清,此外,如果橘子的大 小差别很大时也不容易估计精确。
思路二:利用一个辅助变量,因为每个橘子的含糖量yi与他们的重量
xi有密切联系,呈现高度相关。因此当我们在测定n个橘子的含糖量
Rh
Yh Xh
Rˆh
yh xh
Yh Rh X h
Yˆh Rˆh X h yRh
ˆ yh
Y W Y Y y W y W X RS
h h RS
RS
h Rh
h
h
x Exceltek Electronics (HK) Ltd Confidential
h
YˆRS NyRS
(S
2 y
R
2
S
2 x
2RSxy)
1 f n
(S
2 y
R
2
S
2 x
2RSxS y )
Exceltek Electronics (HK) Ltd Confidential
• 三、比估计的效果分析 ➢如果 2CxCy Cx2两 0种方法的估计效果
基本相同。 ➢如果 2CxCy Cx2比 估0 计优于简单估计
➢ 均是有偏估计量
➢ 很难比较两者优劣
Exceltek Electronics (HK) Ltd Confidential
2、置信区间
➢ 当 n 30, cv(x) 0时.1,, cv( y) 0.1
Rˆ
u
v(Rˆ ), Rˆ u
v(Rˆ )
▼当上述条件不满足时,
Exceltek Electronics (HK) Ltd Confidential
R Y or R Y
X
X
➢
根据样本中调查变量Rˆ 与辅y助变o量r 的R资ˆ 料 ,y通过计算样本 比率来估计总体比率,进x而利用此资料对x调查标志的总
体平均数和总体标志总量进行估计的方法称为比估计。
Exceltek Electronics (HK) Ltd Confidential
2、样本比率对总体比率的估计是有偏误的。 ➢ 当样本容量n充分大时,这种偏误趋近于0 3、估计总体平均数及总体标志总量
R Y Y RX X
➢ R 称Y为比估Y计量RX X
Rˆ , Yˆ , Yˆ
Yˆ RˆX y X x
Yˆ RˆX y X NRˆX x
Exceltek Electronics (HK) Ltd Confidential
4、样本估计量的均方误差
MSE(Rˆ) 1 f n
1 N 1
Exceltek Electronics (HK) Ltd Confidential
例2:有一批橘子,欲估计其含糖总量。
• 分析:确切的含糖总量只有把全部橘子做成橘子汁以后进行加工提 炼才能得到,因此必须用抽样的方法。
思路一:假设现在用简单随机抽样的方法从中抽取n个橘子为样本, 一种简单的估计推断方法是测定每个橘子的含糖量y1,y2,…yn。
2 y
(1
2
)
v(Yˆlr
)
1
n
f
se2
1 f n
n n
1 2
(s
2 y
b2sx
2
)
Exceltek Electronics (HK) Ltd Confidential
• 例1:某系统共有N=687个单位,为预估当年全系统的工 资总额,用简单随机抽样抽取一个n=26个单位的样本,对 样本的资料统计如下:
四、回归估计量与比估计量及一般样本 平均数的比 较
➢ 在大样本下,回归估计总是优于简单估计量。 ➢ 在大样本下,回归估计总是优于比估计。
Exceltek Electronics (HK) Ltd Confidential
第四节 分层比估计与分层回归估计
• 一、分别比估计与联合比估计
➢ 分别比估计:在分层随机抽样中,对每层样本考虑比 估计,然后进行加权平均或相加,所得的估计量称为 分别比估计
1 X2
(Yi RXi )2
5、估计量的方差
V (Rˆ) MSE(Rˆ) 1 f 1 1 n N 1 X 2
(Yi RXi )2
V (YˆR ) V (RˆX ) X 2V (Rˆ) V (YˆR ) V (NYˆR ) N 2V (YˆR ) N 2 X 2V (Rˆ)
Exceltek Electronics (HK) Ltd Confidential
第四章 比估计与回归估计
• 第一节 概述 • 第二节 比估计 • 第三节 回归估计 • 第四节 分层比估计与分层回归估计
Exceltek Electronics (HK) Ltd Confidential
第一节 概述
• 一、问题的提出
在许多实际问题中常常涉及两个调查变量(指标)Y 和X 。对 于包含N个抽样单元的总体除了对总体信息进行估计外,常常要 估计总体比率R。总体比率在形式上总是表现为两个变量总值或 均值之比。
二、方差估计及置信区间
1、方差估计
v1(Rˆ )
1 nX
f
2
(
s
2 y
Rˆ
2
s
2 x
2Rˆsxy )
v2
(Rˆ )
1 nx
f
2
(
s
2 y
Rˆ
2
s
2 x
2Rˆsxy )
v(YˆR
)
1
n
f
(
s
2 y
Rˆ 2 sx2
2Rˆsxy )
v(YˆR )
N 2 (1 n
f
)
(s
2 y
Rˆ
2
s
2 x
2Rˆsxy )
试估计平均运距R并给出它90%的置信区 间。
yi 295500 xi 5974
s
2 y
10029993
sx2 4177.19
sxy 199726.1
Exceltek Electronics (HK) Ltd Confidential
➢相关系数:
Sxy
Sx Sy
1 f V (yR) n
上归一sy估y2年计1全计8089系算9.16统当9.84工年656资全53总系x额统sx2(的1X0工7)06资.9为7总637.600额25122及430.估16计万sy的元x 近。8似试25标运9准.用36差回2。4
Exceltek Electronics (HK) Ltd Confidential
Rˆ[(1 u2cyx ) u
其中:
(c
2 y
c
2 x
2cxy
)
u2
(c
c2 2
yx
cx2y
)]
1 u2cx2
c
2 y
s
2 y
y2
1 f n
s
2 y
y2
, cx2
s
2 x
x2
1 f n
s
2 x
x2
c
2 yx
s yx yx
1 f n
syx yx
Exceltek Electronics (HK) Ltd Confidential
Exceltek Electronics (HK) Ltd Confidential
第三节 回归估计
• 一、定义
➢ 回归估计是通过对调查变量Y以及该变量有线 性关系的辅助变量X建立回归方程,然后运用 回归方程对总体指标进行推断、估计的方法。
✓ 在直角坐标系中,比估计表现为通过原点的回 归直线,而回归估计可以通过原点,也可以不 通过。
Exceltek Electronics (HK) Ltd Confidential
三、 β为样本回归系数
Yˆlr y b( X x)
b (xi x)(yi y) syx
(xi x)2
sx2
MSE(Yˆlr
)
V
(Yˆlr
)
1
n
f
(S
2 y
b2
S
2 x
2bS yx )
1 n
f
S