计量经济学系列课件23一元线性回归模型检验
《线性回归分析》PPT课件
2019/5/8
金融与统计学院
2
古典线性回归分析三个基本特征
分析框架
“古典框架”,认为经济变量之间存在 确定的函数关系,计量经济分析就是发 现或推断这种关系。
需要确定的参数
线性模型中的线性参数,即线性函数的 系数。
2019/5/8
金融与统计学院
3
分析方法
主要是对因果关系的回归分析
相关分析用相关系数度量变量之间线 性联系的程度,回归分析用固定的解 释变量估计和预测被解释变量的平均 值。
相关分析中的变量对称,回归分析中 的变量不对称
相关分析中的变量随机,回归分析中 的解释变量固定(非随机)
2019/5/8
两个无聊但有钱的美国人W.N.Thurman和 M.E.Fisher (1988)针对1930~1983年美国 年鸡蛋产量和年鸡产量数据,分别用滞后1~4 期的检验式对“先有鸡还是先有蛋”做格兰杰 因果关系检验,结论是先有蛋。
2019/5/8
金融与统计学院
4
先讨论一元线性回归分析的原因
两个变量之间的线性因果关系在现实经济中普遍存 在;
2019/5/8
金融与统计学院
12
使用相关系数须注意
变量X、Y随机、对称
rXY rYX
相关系数反映变量之间的线性相关程度 样本相关系数是总体相关系数的估计值 相关系数不能确定变量之间的因果关系
2019/5/8
金融与统计学院
13
回归分析
回归:由英国著名生物学家兼统计学家 高尔顿(Francis Galton,1822— 1911 )在研究人类遗传问题时提出。
对于这个一般结论的解释是:大自然具有一种约束力, 使人类身高的分布相对稳定而不产生两极分化,这就是 所谓的回归效应。
计量经济学第二章
以上假设也称为线性回归模型的经典假设或高斯 (Gauss)假设,满足该假设的线性回归模型,也 称为经典线性回归模型(Classical Linear Regression Model, CLRM)。
注意:
1、如果假设1、2满足,则假设3也满足;
2、如果假设4满足,则假设2也满足;
1 yi 0 1 ui xi
就属于被解释变量y与解释变量x之间不为线性关 系的情形,如果我们令
1 x x
此时非线性模型就变成线性模型了
yi 0 1 xi ui
山东经济学院统计与数学学院计量经济教研室
三、一元线性回归模型中随机项的假定
在给定样本观测值(样本值) ( xi , yi ) ,i=1,2, 3,…,n 后, 为了估计(2. 5)式的参数 0 和 1 , 必须 对随机项 u i 做出某些合理的假定。这些假定通常 称为古典假定。
山东经济学院统计与数学学院计量经济教研室
假定1 E(ui|xi)=0 i=1,2, …,n; 随机误差项u具有零均值. 假定2 Var (ui|xi)=E{[ui-E(ui)]2}=E(ui2)=u2 i=1,2, …,n 随机误差项u具有同方差. 假定3 Cov(ui, uj)= E{[ui-E(ui)] [uj-E(uj)]}= 0 i≠j, i, j= 1,2, …,n 随机误差项u具有不序列相关性. 假定4 Cov(ui, xi)=0 i=1,2, …,n 随机误差项u与解释变量x之间不相关. 假定5 ui~N(0, u2 ) i=1,2, …,n u服从零均值、同方差的正态分布.
山东经济学院统计与数学学院计量经济教研室
回归与回归分析的内容
计量经济学第2章 一元线性回归模型
15
~ ~ • 因为 2是β2的线性无偏估计,因此根据线性性, 2 ~ 可以写成下列形式: 2 CiYi
• 其中αi是线性组合的系数,为确定性的数值。则有
E ( 2 ) E[ Ci ( 1 2 X i ui )]
E[ 1 Ci 2 Ci X i Ci ui ]
6
ˆ ˆ X )2 ] ˆ , ˆ ) [ (Yi Q( 1 2 i 1 2 ˆ ˆ X 2 Yi 1 2 i ˆ ˆ 1 1 2 ˆ ˆ ˆ ˆ [ ( Y X ) ] 1 2 i Q( 1 , 2 ) i ˆ ˆ X X 2 Yi 1 2 i i ˆ ˆ 2 2
16
~
i
i
• 因此 ~ 2 CiYi 1 Ci 2 Ci X i Ci ui 2 Ci ui
• 再计算方差Var( ) 2 ,得 ~ ~ ~ 2 ~ Var ( 2 ) E[ 2 E ( 2 )] E ( 2 2 ) 2
C E (ui )
2 i 2 i
i
~
i
i
i
i
E ( 2 Ci ui 2 ) 2 E ( Ci ui ) 2
i
2 u
C
i
2 i
i
~ ˆ)的大小,可以对上述表达式做一 • 为了比较Var( ) 和 Var( 2 2
些处理: ~ 2 2 2 2 Var ( 2 ) u C ( C b b ) i u i i i
8
• 2.几个常用的结果
• (1) • (2) • (3) • (4)
一元线性回归模型的统计检验
3. 怎样进行拟合优度检验 (1)总离差平方和的分解 已知有一组样本观测值( Xi ,Yi )(i 1, 2, , n),得到 如下样本回归直线:
Yˆi ˆ0 ˆ1Xi
Y的第i个观测值与样本均值的离差yi Yi Y 可分 解为两部分之和:
yi Yi Y Yi Yˆi Yˆi Y ei yˆi (1)
规则:p值越小,越能拒绝原假设H0.
三、回归系数的置信区间
对参数作出的点估计虽然是无偏估计,但一 次抽样它并不一定等于真实值,所以需要找到包 含真实参数的一个范围,并确定这个范围包含参 数真实值的可靠程度。
在变量的显著性检验中已经知道:
t ˆi i ~ t(n 2) i=0,1
Sˆi
给出置信度1,查自由度为(n 2)的t分布表,
假设检验的步骤: (1)提出原假设和备择假设; (2)根据已知条件选择检验统计量; (3)根据显著性水平确定拒绝域或临界值; (4)计算出统计量的样本值并作出判断。
(2)变量的显著性检验
对于最小二乘估计量ˆ1,已经知道它服从正态分布
ˆ1 ~ N(1,
2
xi2 )
由于真实的 2未知,在用它的无偏估计量ˆ 2
在上述收入——消费支出的例子中,如果给定
=0.01,查表得:
t 2 (n 2) t0.005 (8) 3.355
由于
Sˆ1 0.042
Sˆ0 98.41
于是,计算得到1、0的置信区间分别为:
(0.6345,0.9195)
(-433.32,226.98)
则
TSS RSS ESS
Y的观测值围绕其均值的总离差可分解为两部 分:一部分来自回归线(RSS),另一部分则来自随 机势力(ESS)。因此,我们可以用回归平方和RSS 占Y的总离差平方和TSS的比例来度量样本回归线 与样本观测值的拟合优度。
计量经济学 第二章 一元线性回归模型
第二章 一元线性回归模型2.1 一元线性回归模型的基本假定2.1.1一元线性回归模型有一元线性回归模型(统计模型)如下, y t = β0 + β1 x t + u t上式表示变量y t 和x t 之间的真实关系。
其中y t 称被解释变量(因变量),x t 称解释变量(自变量),u t 称随机误差项,β0称常数项,β1称回归系数(通常未知)。
上模型可以分为两部分。
(1)回归函数部分,E(y t ) = β0 + β1 x t ,(2)随机部分,u t 。
图2.1 真实的回归直线这种模型可以赋予各种实际意义,居民收入与支出的关系;商品价格与供给量的关系;企业产量与库存的关系;身高与体重的关系等。
以收入与支出的关系为例。
假设固定对一个家庭进行观察,随着收入水平的不同,与支出呈线性函数关系。
但实际上数据来自各个家庭,来自同一收入水平的家庭,受其他条件的影响,如家庭子女的多少、消费习惯等等,其出也不尽相同。
所以由数据得到的散点图不在一条直线上(不呈函数关系),而是散在直线周围,服从统计关系。
“线性”一词在这里有两重含义。
它一方面指被解释变量Y 与解释变量X 之间为线性关系,即1tty x β∂=∂220tt y x β∂=∂另一方面也指被解释变量与参数0β、1β之间的线性关系,即。
1ty x β∂=∂,221ty β∂=∂0 ,1ty β∂=∂,2200ty β∂=∂2.1.2 随机误差项的性质随机误差项u t 中可能包括家庭人口数不同,消费习惯不同,不同地域的消费指数不同,不同家庭的外来收入不同等因素。
所以在经济问题上“控制其他因素不变”是不可能的。
随机误差项u t 正是计量模型与其它模型的区别所在,也是其优势所在,今后咱们的很多内容,都是围绕随机误差项u t 进行了。
回归模型的随机误差项中一般包括如下几项内容: (1)非重要解释变量的省略, (2)数学模型形式欠妥, (3)测量误差等,(4)随机误差(自然灾害、经济危机、人的偶然行为等)。
计量经济学第二章 一元线性回归模型(1)(肖)
10
2.在经济学中,经济学家要研究个人
消费支出与个人可支配收入的依赖关系。
这种分析有助于估计边际消费倾向,就是
可支配收入每增加一元引起消费支出的平
均变化。
11
3.在企业中,我们很想知道人们对企
业产品的需求与广告费开支的关系。这种
研究有助于估计出相对于广告费支出的需
求弹性,即广告费支出每变化百分之一的
(2.3)
想想:结合表2.1的资料 ,怎样理解式(2.3)
变量Y 的原因, 给定变量X 的值也不能具
体确定变量Y的值, 而只能确定变量Y 的
统计特征,通常称变量X 与Y 之间的这种
关系为统计关系。
16
例如,企业总产出Y 与企业的资本投入
K 、劳动力投入L 之间的关系就是统计关 系。虽然资本K 和劳动力L 是影响产出Y 的两大核心要素,但是给定K 、L 的值并 不能确定产出Y 的值。因为,总产出Y 除 了受资本投入K、劳动力投入L 的影响外
在进入正式的回归理论之前,先斟酌一下变量y与变 量x可以互换的不同名称、术语。 Y 因变量 X 自变量
被解释变量 响应变量
被预测变量
解释变量 控制变量
预测变量
回归子
归回元
22
第二节
一、引例
一元线性回归模型
假定我们要研究一个局部区域的居 民消费问题,该区域共有80户家庭组成 ,将这80户家庭视为一个统计总体。
32
函数f (Xi)采取什么函数形式,是一个
需要解决的重要问题。在实际经济系统
中,我们不会得到总体的全部数据,因
而就无法据已知数据确定总体回归函数 的函数形式。同时,对总体回归函数的 形式只能据经济理论与经验去推断。
21一元线性回归模型.ppt
同理,p(Y= ? /X=260)=1/7
条件均值(条件期望 ) :
对Y的每一条件概率分布,我们能算出它 的均值 :
记做E(Y/X=Xi)
[简写为E(Y/Xi) ]
并读为“在X取特定Xi值时的Y的期望值”。
计算方法:
将表2.1中的有关列乘以表2.2中的相应列 的条件概率,然后对这些乘积求和便是。
第二章 一元线性回归模型
§2.1 一元线性回归模型概念基础 回归是计量经济学的主要工具 一、“回归”一词的历史渊源
Francis Galton F.加尔顿
回归一词最先由F.加尔顿 (FrancisC,alton)引入
加尔顿的普遍回归定律还被他的朋友 K.皮尔逊(KartPearson)证实
Karl Pearson K.皮尔逊
综合来看,回归分析一般可以用来:
(1) 通过已知变量的值来估计因变量的均值。
(2)对独立性进行假设检验―――根据经济理 论建立适当的假设。
例如,对于需求函数,你可以检验假设:需求的 价格弹性为-1.0;即需求曲线具有单一的价格 弹性。也就是说,在其他影响需求的因素保持 不变的情况下,如果商品的价格上涨1%,平 均而言,商品的需求量将减少1%。
P (
1/7 1/5 1/5 1/6 1/5 1/7 1/5 1/7 1/5
Y/ 1/7 1/5 1/5 1/6 1/5 1/7 1/5 1/7 1/5
Xi ) 1/7
1/6
1/7
1/7
1/7
1/7
1/7
Y的条 48 46 44 42 40 38 36 34 32 30
件均值
E(Y/X=Xi) Y的条件均值
·
·
·
· ·
计量经济学-第4章
TSS ESS RSS
4
4.1.1 总离差平方和旳分解
已知由一组样本观察值(Xi,Yi),i=1,2…,n 得到如下样本回归直线
Yˆi ˆ0 ˆ1 X i
yi Yi Y (Yi Yˆi ) (Yˆi Y ) ei yˆi
2
即
P(i
t s t s ) P(t 2
i i
si
t ) 1
2
2
i
i
i
2
i
1
21
于是得到:(1-)旳置信度下, i旳置信区间是
(i
t
2
si , i
t
2
si )
在上述收入-消费支出例中,假如给定 =0.01,
查表得:
因为
t (n 2) t0.005 (8) 3.355 2
▪判断成果合理是否,是基于“小概率事件不易 发生”旳原理
➢ 一次抽样中,尽然不能支持原假设,也就是举反 例否决。
13
4.2.2 变量旳明显性检验
ˆ1 ~ N (1,
2
) xi2
t ˆ1 1 ˆ1 1 ~ t(n 2)
ˆ 2 xi2
S ˆ1
14
检验环节:
(1)对总体参数提出假设
H0: 1=0,
18
4.3 参ห้องสมุดไป่ตู้旳置信区间检验法
假设检验能够经过一次抽样旳成果检验总体参数 假设值旳范围(如是否为零),但它并没有指出 在一次抽样中样本参数值究竟离总体参数旳真值 有多“近”。
要判断样本参数旳估计值在多大程度上能够“近 似”地替代总体参数旳真值,往往需要经过构造 一种以样本参数旳估计值为中心旳“区间”,来 考察它以多大旳可能性(概率)包括着真实旳参 数值。这种措施就是参数检验旳置信区间估计。
计量经济学实验二-一元线性回归模型的估计、检验和预测
目录一、加载工作文件 (7)二、选择方程 (7)1.作散点图 (7)2.进行因果关系检验 (9)三、一元线性回归 (10)四、经济检验 (12)五、统计检验 (13)六、回归结果的报告 (15)七、得到解释变量的值 (15)八、预测应变量的值 (17)实验二一元线形回归模型的估计、检验和预测实验目的:掌握一元线性回归模型的估计、检验和预测方法。
实验要求:选择方程进行一元线性回归,进行经济、拟合优度、参数显著性和方程显著性等检验,预测解释变量和应变量。
实验原理:普通最小二乘法,拟合优度的判定系数R2检验和参数显著性t检验等,计量经济学预测原理。
实验步骤:已知广东省宏观经济部分数据如表2-1所示,要根据这些数据研究和分析广东省宏观经济,建立宏观计量经济模型,从而进行经济预测、经济分析和政策评价。
实验二~实验十二主要都是用这些数据来完成一系列工作。
表2-1 广东省宏观经济数据续上表续上表一、加载工作文件广东省宏观经济数据已经制成工作文件存在盘中,命名为GD01.WF1,进入EViews后选择File/Open打开GD01.WF1。
二、选择方程根据广东数据(GD01.WF1)选择收入法国国内生产总值(GDPS)、财政收入(CS)、财政支出(CZ)和社会消费品零售额(SLC),分别把①CS作为应变量,GDPS作为解释变量;②CZ作为应变量,CS作为解释变量;③SLC作为应变量,GDPS作为解释变量进行一元线性回归分析。
1.作散点图从三个散点图(图2-1~图2~3)可以看出,三对变量都呈现线性关系。
图2-1 图2-2图2-3 2.进行因果关系检验从三个因果关系检验可以看出,GDPS是CS的因;CS不是CZ 的因;GDPS不是SLC的因。
但根据理论CS是CZ的因,GDPS是SLC的因,可能是由于指标设置问题。
所以还是把CS作为应变量,GDPS作为解释变量;CZ作为应变量,CS作为解释变量;SLC作为应变量,GDPD作为解释变量进行一元线性回归分析。
计量经济学课件一元线性回归
二、参数的普通最小二乘估计(OLS)
给定一组样本观测值(Xi, Yi)(i=1,2,…n)要 求样本回归函数尽可能好地拟合这组值. 普通最小二乘法(Ordinary least squares, OLS) 给出的判断标准是:二者之差的平方和
ˆ ˆ X )) 2 ˆ ) (Y ( Q (Yi Y i i 0 1 i
640000 352836 1210000 407044 1960000 1258884 2890000 1334025 4000000 1982464 5290000 2544025 6760000 3876961 8410000 4318084 10240000 6682225 12250000 6400900 53650000 29157448
ˆ Y 顺便指出 ,记 y ˆi Y i
则有
ˆ ˆ X ) ( ˆ ˆ X e) ˆi ( y 0 1 i 0 1 ˆ (X X ) 1 e 1 i n i
可得
ˆx ˆi y 1 i
(**)
(**)式也称为样本回归函数的离差形式。
注意:
在计量经济学中,往往以小写字母表示对均值 的离差。
易知 故
x k x
i
i
2 i
0
k X
i
i
1
ˆ k i i 1 1
ˆ ) E ( k ) k E ( ) E( i i 1 i i 1 1 1
同样地,容易得出
ˆ ) E ( w ) E( ) w E ( ) E( i i i i 0 0 0 0
1 (2 ) n
n 2
1 2
计量经济学的2.3 一元线性回归模型的统计检验
ˆ ˆ P( ) 1
如果存在这样一个区间,称之为置信区间 (confidence interval); 1-称为置信系数(置信度) (confidence coefficient), 称为显著性水平(level of significance)(或犯第I类错误的概率,即拒真的概 率);置信区间的端点称为置信限(confidence limit) 或临界值(critical values)。置信区间以外的区间称 4 为临界域
由于置信区间一定程度地给出了样本参数估计 值与总体参数真值的“接近”程度,因此置信区间 越小越好。 (i t s , i t s )
2 i 2 i
要缩小置信区间,需要减小 (1)增大样本容量n,因为在同样的置信水平 下, n越大,t分布表中的临界值越小;同时,增大样本 容量,还可使样本参数估计量的标准差减小;
5
如何构造参数值的估计区间? 通过构造已知分布的统计量
6
构造统计量(1)
回顾: 在正态性假定下
以上统计量服从自由度为n-2的x2分布,n为样本量
7
构造统计量(2)
ˆ ˆ 0 和 1 服从正态分布
ˆ E ( 0 )= 0
ˆ E ( 1 )=1
Var 0) (ˆ
X
i 1 n i 1
§2.3 一元线性回归模型的统 计检验
一、参数的区间估计 二、拟合优度检验 三、参数的假设检验 (对教材内容作了扩充)
1
一、参数的区间估计
参数的两种估计:点估计和区间估计
点估计
通过样本数据得到参数的一个估计值。
(如:最小二乘估计、最大似然估计)
点估计不足:
(1)点估计给出在给定样本下估计出的参数的可能取值,但 它并没有指出在一次抽样中样本参数值到底离总体参数的真 值有多“近”。 (2)虽然在重复抽样中估计值的均值可能会等于真值,但由 于抽样波动,单一估计值很可能不同于真值。 2
第二章 经典单方程计量经济学模型:一元线性回归模型
第二章经典单方程计量经济学模型:一元线性回归模型一、内容提要本章介绍了回归分析的基本思想与基本方法。
首先,本章从总体回归模型与总体回归函数、样本回归模型与样本回归函数这两组概念开始,建立了回归分析的基本思想。
总体回归函数是对总体变量间关系的定量表述,由总体回归模型在若干基本假设下得到,但它只是建立在理论之上,在现实中只能先从总体中抽取一个样本,获得样本回归函数,并用它对总体回归函数做出统计推断。
本章的一个重点是如何获取线性的样本回归函数,主要涉及到普通最小二乘法(OLS)的学习与掌握。
同时,也介绍了极大似然估计法(ML)以及矩估计法(MM)。
本章的另一个重点是对样本回归函数能否代表总体回归函数进行统计推断,即进行所谓的统计检验。
统计检验包括两个方面,一是先检验样本回归函数与样本点的“拟合优度”,第二是检验样本回归函数与总体回归函数的“接近”程度。
后者又包括两个层次:第一,检验解释变量对被解释变量是否存在着显著的线性影响关系,通过变量的t检验完成;第二,检验回归函数与总体回归函数的“接近”程度,通过参数估计值的“区间检验”完成。
本章还有三方面的内容不容忽视。
其一,若干基本假设。
样本回归函数参数的估计以及对参数估计量的统计性质的分析以及所进行的统计推断都是建立在这些基本假设之上的。
其二,参数估计量统计性质的分析,包括小样本性质与大样本性质,尤其是无偏性、有效性与一致性构成了对样本估计量优劣的最主要的衡量准则。
Goss-markov定理表明OLS估计量是最佳线性无偏估计量。
其三,运用样本回归函数进行预测,包括被解释变量条件均值与个值的预测,以及预测置信区间的计算及其变化特征。
二、典型例题分析例1、令kids表示一名妇女生育孩子的数目,educ表示该妇女接受过教育的年数。
生育率对教育年数的简单回归模型为β+μβkids=educ+1(1)随机扰动项μ包含什么样的因素?它们可能与教育水平相关吗?(2)上述简单回归分析能够揭示教育对生育率在其他条件不变下的影响吗?请解释。
计量经济学基础 第3版 第3章一元线性回归模型的估计
第3章 一元线性回归模型的估计
学习目标
LEARNING TARGET
1. 掌握普通最小二乘法(OLS)的基本原理 2. 能够运用OLS估计一元线性回归模型的系数 3. 了解一元线性回归线的代数性质 4. 理解拟合优度的度量方法
3.1普通最小二乘法
估计一元线性回归模型参数的最常用、最简洁的方法是普通最小二乘法
(ordinary least squares, OLS )。
设总体一元线性回归模型为:
样本一元线性回归模型为:
Yi 0 1 X i ui (3-1)
式中, ui 为随机扰动项
样本回归方程为:
Yˆi ˆ0 ˆ1 X i
(3-3)
Yi ˆ0 ˆ1 X i ei (3-2)
e 式 中 , i 为 残 差 项
于 残 差 平 方 和
ei2 为 非 负 数 , 求 和 时 不 会 正 负 抵 消 , 所 以 , 能 够 使 残 差 平 方 和
为 最 小 的 回 归 直 线 , 就 是 与 散 点 误 差 最 小 的 直 线 。 于 是 由 式 ( 3-2 ) 、 ( 3-3 ) 和
(3-4)得:
ei2 (Yi Yˆi )2 (Yi ˆ0 ˆ1 X i )2
第一, OLS估计量 ˆ0 和 ˆ1 是由给定的样本观测值计算得到的。
第二, OLS估计量ˆ0和ˆ1 是总体参数 0 和 1 的点估计值。对于不同的样本
用最小二乘法可以计算得到不同的值,所以 ˆ0和 ˆ1 是统计量,是随机变量。
我们计算得到的是由给定样本观测值的特定的一个值,它是成千上万个估 计值中的一个。
(3-5)
3.1普通最小二乘法
• 由于样本数据 X i 、 Yi 都是已知的、确定的,所以,上式中残差平方和的值取决
计量经济学第二章一元线性回归模型
画一条直线以尽好地拟合该散点图,由于样本 取自总体,可以该直线近似地代表总体回归线。 该直线称为样本回归线(sample regression lines)。
2021/2/10
LOU YONG
21
记样本回归线的函数形式为:
Yˆi f ( X i ) ˆ0 ˆ1 X i
称为样本回归函数(sample regression function, SRF)。
由于方程中引入了随机项,成为计量经济模 型,因此也称为样本回归模型(sample regression model)。
2021/2/10
LOU YONG
23
回归分析的主要目的:根据样本回归函数SRF, 估计总体回归函数PRF。
即,根据 Yi Yˆi ei ˆ0 ˆ1Xi ei
估计 Yi E(Y | X i ) i 0 1 X i i
每 月 家 庭 消 费 支 出 Y (元)
共计
表 2.1.1 某社区家庭每月收入与消费支出统计表 每月家庭可支配收入X(元)
800 1100 1400 1700 2000 2300 2600 2900 3200 3500 561 638 869 1023 1254 1408 1650 1969 2090 2299 594 748 913 1100 1309 1452 1738 1991 2134 2321 627 814 924 1144 1364 1551 1749 2046 2178 2530 638 847 979 1155 1397 1595 1804 2068 2266 2629
1430 1650 1870 2112 1485 1716 1947 2200
2002 2420 4950 11495 16445 19305 23870 25025 21450 21285 15510
PPT-第4章-一元线性回归-计量经济学及Stata应用
计量经济学的主要任务之一就是通过数据 xi , yi i 1 来获取关于
n
总体参数 ( , ) 的信息。
y
( xi , yi )
1
b
a +bx
ei
a
x
图 4.2 数据生成过程
11
4.2 OLS 估计量的推导 如何根据观测值 xi , yi i 1 来估计总体回归直线 xi ?
(4.9)
16
ˆ 的二元一次线性方程组,称为“正规方程 ˆ, 这是有关估计量 组”(normal equations)。从方程组(4.9)的第 1 个方程可得 ˆx ˆ y 1 n 1 n 其中, y yi , x xi 。 n i 1 n i 1
(4.10)
将表达式(4.10)代入方程组(4.9)的第 2 个方程可得
ˆ x ,即样本回归线一定经过 ( x , y ) 。 ˆ 从方程(4.10)可知, y
20
y
( x2 , y2 )
(x , y )
ˆx ˆ +b a
e2
e2
a +bx
e1
e1
( x1 , y1 )
x
图 4.5 总体回归线与样本回归线 4.3 OLS 的正交性
5
s 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 12 16 14 12 9 9 18 15 12 18
lnw 5.9 5.438 5.71 5.481 5.927 4.804 6.512 5.808 5.737 6.382
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
§2.3 一元线性回归模型的统计检验回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。
尽管从统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。
那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。
主要包括拟合优度检验、变量的显著性检验及参数的区间估计。
一、拟合优度检验拟合优度检验,顾名思义,是检验模型对样本观测值的拟合程度。
检验的方法,是构造一个可以表征拟合程度的指标,在这里称为统计量,统计量是样本的函数。
从检验对象中计算出该统计量的数值,然后与某一标准进行比较,得出检验结论。
有人也许会问,采用普通最小二乘估计方法,已经保证了模型最好地拟合了样本观测值,为什么还要检验拟合程度?问题在于,在一个特定的条件下做得最好的并不一定就是高质量的。
普通最小二乘法所保证的最好拟合,是同一个问题内部的比较,拟合优度检验结果所表示优劣是不同问题之间的比较。
例如图2.3.1和图2.3.2中的直线方程都是由散点表示的样本观测值的最小二乘估计结果,对于每个问题它们都满足残差的平方和最小,但是二者对样本观测值的拟合程度显然是不同的。
图2.3.1 图2.3.21、总离差平方和的分解已知由一组样本观测值),(i i Y X ,i =1,2…,n 得到如下样本回归直线ii X Y 10ˆˆˆββ+= 而Y 的第i 个观测值与样本均值的离差)(Y Y y i i -=可分解为两部分之和:i ii i i i i y e Y Y Y Y Y Y y ˆ)ˆ()ˆ(+=-+-=-= (2.3.1) 图2.3.3示出了这种分解,其中,)ˆ(ˆY Y y ii -=是样本回归直线理论值(回归拟合值)与观测值i Y 的平均值之差,可认为是由回归直线解释的部分;)ˆ(ii i Y Y e -=是实际观测值与回归拟合值之差,是回归直线不能解释的部分。
显然,如果i Y 落在样本回归线上,则Y 的第i 个观测值与样本均值的离差,全部来自样本回归拟合值与样本均值的离差,即完全可由i X X 图2.3.3对于所有样本点,则需考虑这些点与样本均值离差的平方和。
由于 ∑∑∑∑++=i i i i ie y e yyˆ2ˆ222 可以证明∑=0ˆii e y,所以有∑∑∑+=222ˆi i ie yy(2.3.2) 记TSS Y Y yi i=-=∑∑22)(,称为总离差平方和(Total Sum of Squares ),反映样本观测值总体离差的大小;ESS Y Y yii=-=∑∑22)ˆ(ˆ,称为回归平方和(Explained Sum of Squares ),反映由模型中解释变量所解释的那部分离差的大小;∑∑=-=RSS Y Y eii i22)ˆ(,称为残差平方和(Residual Sum of Squares ),反映样本观测值与估计值偏离的大小,也是模型中解释变量未解释的那部分离差的大小。
(2.3.2)表明Y 的观测值围绕其均值的总离差平方和可分解为两部分,一部分来自回归线,另一部分则来自随机势力。
因此,可用来自回归线的回归平方和占Y 的总离差的平方和的比例来判断样本回归线与样本观测值的拟合优度。
读者也许会问,既然RSS 反映样本观测值与估计值偏离的大小,可否直接用它作为拟合优度检验的统计量?这里提出了一个普遍的问题,即作为检验统计量的一般应该是相对量,而不能用绝对量。
因为用绝对量作为检验统计量,无法设置标准。
在这里,RSS ,即残差平方和,与样本容量关系很大,当n 比较小时,它的值也较小,但不能因此而判断模型的拟合优度就好。
2、可决系数2R 统计量 根据上述关系,可以用T S SR S ST S S E S S R -==12(2.3.3) 检验模型的拟合优度,称2R 为可决系数(coefficient of determination )。
显然,在总离差平方和中,回归平方和所占的比重越大,残差平方和所占的比重越小,则回归直线与样本点拟合得越好。
如果模型与样本观测值完全拟合,则有12=R 。
当然,模型与样本观测值完全拟合的情况是不可能发生的,2R 不可能等于1。
但毫无疑问的是该统计量越接近于1,模型的拟合优度越高。
在实际计算可决系数时,在1ˆβ已经估计出后,一个较为简单的计算公式为: ⎪⎪⎭⎫⎝⎛=∑∑22212ˆi i y x R β (2.3.4) 这里用到了样本回归函数的离差形式来计算回归平方和: ∑∑∑===221212ˆ)ˆ(ˆii ix x yESS ββ。
在例2.1.1的收入-消费支出例中,9766.045900207425000)777.0(ˆ222212=⨯==∑∑ii yx R β说明在线性回归模型中,家庭消费支出总变差(variation )中,由家庭可支配收入的变差解释的部分占97.66%,模型的拟合优度较高。
由(2.3.3)知,可决系数的取值范围为102≤≤R ,是一个非负的统计量。
它也是随着抽样的不同而不同,即是随抽样而变动的统计量。
为此,对可决系数的统计可靠性也应进行检验,这将在第3章中进行。
二、变量的显著性检验变量的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系是否显著成立作出推断,或者说考察所选择的解释变量是否对被解释变量有显著的线性影响。
从上面的拟合优度检验中可以看出,拟合优度高,则解释变量对被解释变量的解释程度就高,线性影响就强,可以推测模型线性关系成立;反之,就不成立。
但这只是一个模糊的推测,不能给出一个统计上的严格的结论。
因此,还必须进行变量的显著性检验。
变量的显著性检验所应用的方法是数理统计学中假设检验。
1、假设检验假设检验是统计推断的一个主要内容,它的基本任务是根据样本所提供的信息,对未知总体分布的某些方面的假设作出合理的判断。
假设检验的程序是,先根据实际问题的要求提出一个论断,称为统计假设,记为H 0;然后根据样本的有关信息,对H 0的真伪进行判断,作出拒绝H 0或接受H 0的决策。
假设检验的基本思想是概率性质的反证法。
为了检验原假设H 0是否正确,先假定这个假设是正确的,看由此能推出什么结果。
如果导致一个不合理的结果,则表明“假设H 0为正确”是错误的,即原假设H 0不正确,因此要拒绝原假设H 0。
如果没有导致一个不合理现象的出现,则不能认为原假设H 0不正确,因此不能拒绝拒绝原假设H 0。
概率性质的反证法的根据是小概率事件原理,该原理认为“小概率事件在一次试验中几乎是不可能发生的”。
在原假设H 0下构造一个事件,这个事件在“原假设H 0是正确”的条件下是一个小概率事件。
随机抽取一组容量为n 的样本观测值进行该事件的试验,如果该事件发生了,说明“原假设H 0是正确”是错误的,因为不应该出现的小概率事件出现了。
因而应该拒绝原假设H 0。
反之,如果该小概率事件没有出现,就没有理由拒绝原假设H 0,应该接受原假设H 0。
2、变量的显著性检验用以进行变量显著性检验的方法主要有三种:F 检验、t 检验、z 检验。
它们的区别在于构造的统计量不同。
应用最为普遍的t 检验,在目前使用的计量经济学软件包中,都有关于t 统计量的计算结果。
我们在此只介绍t 检验。
对于一元线性回归方程中的1ˆβ,已经知道它服从正态分布 ),(~ˆ2211∑ixN σββ进一步根据数理统计学中的定义,如果真实的2σ未知,而用它的无偏估计量)2ˆ22-=∑n e i σ替代时,可构造如下统计量 1ˆ112211ˆˆˆβββσββS xt i-=-=∑ (2.3.5)则该统计量服从自由度为)2(-n 的t 分布。
因此,可用该统计量作为1β显著性检验的t 统计量。
如果变量X 是显著的,那么参数1β应该显著地不为0。
于是,在变量显著性检验中设计的原假设为:0:10=βH给定一个显著性水平α,查t 分布表(见附录),得到一个临界值)2(2-n t α。
因为t 分布是双尾分布,所以按照α2查t 分布表中的临界值。
于是 t >)2(2-n t α(这里的t 已不同于(2.3.5) 式,其中01=β)为原假设H 0下的一个小概率事件。
在参数估计完成后,可以很容易计算t 的数值。
如果发生了t >)2(2-n t α,则在(1-α)的置信度下拒绝原假设H 0,即变量X 是显著的,通过变量显著性检验。
如果未发生t >)2(2-n t α,则在(1-α)置信度下接受原假设H 0,即变量X 是不显著的,未通过变量显著性检验。
对于一元线性回归方程中的0β,可构造如下t 统计量进行显著性检验: 0ˆ02220ˆˆˆβββσββS xn Xt ii-=-=∑∑ (2.3.6)同样地,该统计量服从自由度为)2(-n 的t 分布,检验的原假设一般仍为00=β。
在例2.1.1及例2.2.1的收入-消费支出例中,首先计算2σ的估计值134022107425000777.045900202ˆ2ˆ2221222=-⨯-=--=-=∑∑∑n x y n e i iiβσ于是0ˆβ和1ˆβ的标准差的估计值分别是: 0425.00018.07425000/13402ˆ22ˆ1====∑ixS σβ41.98742500010/5365000013402ˆ222ˆ0=⨯⨯==∑∑i i x n X S σβ t 统计量的计算结果分别为:29.180425.0777.0ˆ1ˆ11===ββS t 048.141.9817.103ˆ0ˆ00-=-==ββS t 给定一个显著性水平α=0.05,查t 分布表中自由度为8(在这个例中8)2(=-n )、α=0.05的临界值,得到=)8(2αt 2.306。
可见1t >)2(2-n t α,说明解释变量家庭可支配收入在95%的置信度下显著,即通过了变量显著性检验。
但0t <)2(2-n t α,表明在95%的置信度下,无法拒绝截距项为零的假设。
三、参数的置信区间假设检验可以通过一次抽样的结果检验总体参数可能的假设值的范围(最常用的假设为总体参数值为零),但它并没有指出在一次抽样中样本参数值到底离总体参数的真值有多“近”。
要判断样本参数的估计值在多大程度上可以“近似”地替代总体参数的真值,往往需要通过构造一个以样本参数的估计值为中心的“区间”,来考察它以多大的可能性(概率)包含着真实的参数值。
这种方法就是参数检验的置信区间估计。
要判断估计的参数值iβˆ离真实的参数值i β有多“近”,可预先选择一个概率)10(<<αα,并求一个正数δ,使得随机区间(random interval ))ˆ,ˆ(δβδβ+-ii 包含参数i β的真值的概率为1-α。