计量经济学系列课件23一元线性回归模型检验
第3章 多元线性回归模型 《计量经济学》PPT课件

于是:
βˆ
ˆ1 ˆ 2
0.7226 0.0003
0.0003 1.35E 07
15674 39648400
01.0737.71072
⃟ 正规方程组 的另一种写法
对于正规方程组 XY XXβˆ
XXβˆ Xe XXβˆ
于是 Xe 0 (*)
或
ei 0
(**)
X jiei 0
i
(*) 或( ** )是多元线性回归模型正规方程 组的另一种写法。
第三章 经典单方程计量经济学模型: 多元线性回归模型
• 多元线性回归模型 • 多元线性回归模型的参数估计 • 多元线性回归模型的统计检验 • 多元线性回归模型的预测 • 回归模型的其他形式
§ 3. 1 多元线性回归模型
一、多元线性回归模型 二、多元线性回归模型的基本假定
一、多元线性回归模型
多元线性回归模型 : 表现在线性回归模型 中的解释变量有多个。
的秩 =k+1 ,即 X 满秩。
假设 2. 随机误差项零均值,同方差。
0
0
0
E
(μ
μ
)
E
1
n
1
n
E
12
n 1
1 n
2 n
var(1 ) cov(1, n ) 2 0
2I
cov(
n
,
1
)
var(n )
0
2
i E(i )
βˆ (xx)1 xY
ˆ0 Y ˆ1 X 1 ˆk X k
⃟ 随机误差项的方差的无偏估计
可以证明,随机误差项的方差的无偏 估计量为:
ˆ 2
ei2 n k 1
ee n k 1
计量经济学中的各种检验

需要说明的问题
❖ 在消费模型中, R2>0.28→F>3.80→该线性模 型在0.99的水平下显著成立。
有许多著名的模型, R2小于 0.5,支持了重要 的结论,例如收入差距的倒U型规律。
不要片面追求拟合优度
什么时候增加新的解释变量
❖ 在实际中,为了解释某一现象,研究者往往 面对如何取舍若干解释变量的问题。通常的 做法是,只要修正的判定系数值增加(即使 修正的判定系数可能小于非修正的判定系数 的值),就可以增加解释变量。但是什么时 候修正的判定系数值开始增加呢?可以证明, 如果增加变量的系数的t的绝对值大于1,修 正的判定系数就会增加。
拟合优度检验和F检验的关系
❖ F检验和拟合优度检验都是把总变差TSS分解 为回归平方和与残差平方和,并在这一分解 的基础上构造统计量进行的检验。区别在于 前者有精确的分布而后者没有。一般来说, 模型对观测值的拟合程度越高,模型总体线 性关系的显著性越强。
拟合优度检验和F检验的关系
❖ F显著==>拟合优度必然显著
线性回归模型的各种检验
❖ 理论检验(经济意义检验) ❖ 统计检验 ❖ 计量经济学检验 ❖ 预测检验 ❖ 这一节主要讨论各种统计检验
回归模型的统计检验
❖ 统计检验指的是根据统计学的理论,确定回 归参数估计值的统计可靠性。
❖ 统计检验主要包括:回归方程估计标准误差 的评价、拟合优度检验、回归模型的总体显 著性检验和回归系数的显著性检验等。
在Eviews中的实现
❖ 许多的计量经济学软件可以给出决定系数和 修正的决定系数,从而实现拟合优度检验。 Eviews中同样可以实现这一目的。估计完回 归方程后的结果中自动会包含决定系数和修 正的决定系数。
❖ 例。
计量经济学第2章 一元线性回归模型

15
~ ~ • 因为 2是β2的线性无偏估计,因此根据线性性, 2 ~ 可以写成下列形式: 2 CiYi
• 其中αi是线性组合的系数,为确定性的数值。则有
E ( 2 ) E[ Ci ( 1 2 X i ui )]
E[ 1 Ci 2 Ci X i Ci ui ]
6
ˆ ˆ X )2 ] ˆ , ˆ ) [ (Yi Q( 1 2 i 1 2 ˆ ˆ X 2 Yi 1 2 i ˆ ˆ 1 1 2 ˆ ˆ ˆ ˆ [ ( Y X ) ] 1 2 i Q( 1 , 2 ) i ˆ ˆ X X 2 Yi 1 2 i i ˆ ˆ 2 2
16
~
i
i
• 因此 ~ 2 CiYi 1 Ci 2 Ci X i Ci ui 2 Ci ui
• 再计算方差Var( ) 2 ,得 ~ ~ ~ 2 ~ Var ( 2 ) E[ 2 E ( 2 )] E ( 2 2 ) 2
C E (ui )
2 i 2 i
i
~
i
i
i
i
E ( 2 Ci ui 2 ) 2 E ( Ci ui ) 2
i
2 u
C
i
2 i
i
~ ˆ)的大小,可以对上述表达式做一 • 为了比较Var( ) 和 Var( 2 2
些处理: ~ 2 2 2 2 Var ( 2 ) u C ( C b b ) i u i i i
8
• 2.几个常用的结果
• (1) • (2) • (3) • (4)
一元线性回归模型的统计检验

3. 怎样进行拟合优度检验 (1)总离差平方和的分解 已知有一组样本观测值( Xi ,Yi )(i 1, 2, , n),得到 如下样本回归直线:
Yˆi ˆ0 ˆ1Xi
Y的第i个观测值与样本均值的离差yi Yi Y 可分 解为两部分之和:
yi Yi Y Yi Yˆi Yˆi Y ei yˆi (1)
规则:p值越小,越能拒绝原假设H0.
三、回归系数的置信区间
对参数作出的点估计虽然是无偏估计,但一 次抽样它并不一定等于真实值,所以需要找到包 含真实参数的一个范围,并确定这个范围包含参 数真实值的可靠程度。
在变量的显著性检验中已经知道:
t ˆi i ~ t(n 2) i=0,1
Sˆi
给出置信度1,查自由度为(n 2)的t分布表,
假设检验的步骤: (1)提出原假设和备择假设; (2)根据已知条件选择检验统计量; (3)根据显著性水平确定拒绝域或临界值; (4)计算出统计量的样本值并作出判断。
(2)变量的显著性检验
对于最小二乘估计量ˆ1,已经知道它服从正态分布
ˆ1 ~ N(1,
2
xi2 )
由于真实的 2未知,在用它的无偏估计量ˆ 2
在上述收入——消费支出的例子中,如果给定
=0.01,查表得:
t 2 (n 2) t0.005 (8) 3.355
由于
Sˆ1 0.042
Sˆ0 98.41
于是,计算得到1、0的置信区间分别为:
(0.6345,0.9195)
(-433.32,226.98)
则
TSS RSS ESS
Y的观测值围绕其均值的总离差可分解为两部 分:一部分来自回归线(RSS),另一部分则来自随 机势力(ESS)。因此,我们可以用回归平方和RSS 占Y的总离差平方和TSS的比例来度量样本回归线 与样本观测值的拟合优度。
计量经济学课件4

方法G有i*良好的统计性质。
2.3 一元线性回归模型的参数估计 2.3.1普通最小二乘法
由(2.3.2)、(2.3.3)式得:
(2.3.4)
(2.3.5)
这样我们就定义了变量x和y之间的一个简单线性回归模型,也称为两变 量或一元线性回归模型。其线性的含义表示无论变量x的取值如何,它 的任何一单位变化都对变量y产生相同的影响。
2.2 一元线性回归模型的基本假设 2.2.1对回归模型设定的假设
假设1:回归模型是正确设定的。 模型的正确设定主要包括两方面的内容:(1)模型选择了正确的变量 ;(2)模型选择了正确的函数形式。 计量经济模型应用于现实经济问题时,因果关系必须有经济理论为其依 据,函数关系也必须要有可靠的依据。 模型选择了正确的变量指既没有遗漏重要的相关变量,也没有多选无关 变量且有经济理论支持该因果关系。当假设1满足时,称模型没有设定 偏误,否则模型存在设定偏误。 假设1‘:线性回归模型 回归模型对变量不一定是线性的,但对参数是线性的。在计量经济学里 说到的线性回归都是指关于参数是线性的。要注意的是回归模型的估计 原理不依赖于y和x的定义,但系数的解释依赖于它们的定义。
xi(yi y ) (xi x )xi
x(y i x(xi
y) x)
(xi x )(yi y ) (xi x )2
2.3 一元线性回归模型的参数估计 2.3.2最小二乘估计量的统计性质
(1)线性性
这里指 ˆ0和 ˆ1分别是 y1, y2 , , yn 的线性函数。
令 ki
(xi x ) ,代入上式得
计量经济学-第4章

TSS ESS RSS
4
4.1.1 总离差平方和旳分解
已知由一组样本观察值(Xi,Yi),i=1,2…,n 得到如下样本回归直线
Yˆi ˆ0 ˆ1 X i
yi Yi Y (Yi Yˆi ) (Yˆi Y ) ei yˆi
2
即
P(i
t s t s ) P(t 2
i i
si
t ) 1
2
2
i
i
i
2
i
1
21
于是得到:(1-)旳置信度下, i旳置信区间是
(i
t
2
si , i
t
2
si )
在上述收入-消费支出例中,假如给定 =0.01,
查表得:
因为
t (n 2) t0.005 (8) 3.355 2
▪判断成果合理是否,是基于“小概率事件不易 发生”旳原理
➢ 一次抽样中,尽然不能支持原假设,也就是举反 例否决。
13
4.2.2 变量旳明显性检验
ˆ1 ~ N (1,
2
) xi2
t ˆ1 1 ˆ1 1 ~ t(n 2)
ˆ 2 xi2
S ˆ1
14
检验环节:
(1)对总体参数提出假设
H0: 1=0,
18
4.3 参ห้องสมุดไป่ตู้旳置信区间检验法
假设检验能够经过一次抽样旳成果检验总体参数 假设值旳范围(如是否为零),但它并没有指出 在一次抽样中样本参数值究竟离总体参数旳真值 有多“近”。
要判断样本参数旳估计值在多大程度上能够“近 似”地替代总体参数旳真值,往往需要经过构造 一种以样本参数旳估计值为中心旳“区间”,来 考察它以多大旳可能性(概率)包括着真实旳参 数值。这种措施就是参数检验旳置信区间估计。
计量经济学第二篇一元线性回归模型

第二章 一元线性回归模型2.1 一元线性回归模型的基本假定有一元线性回归模型(统计模型)如下, y t = β0 + β1 x t + u t上式表示变量y t 和x t 之间的真实关系。
其中y t 称被解释变量(因变量),x t 称解释变量(自变量),u t 称随机误差项,β0称常数项,β1称回归系数(通常未知)。
上模型可以分为两部分。
(1)回归函数部分,E(y t ) = β0 + β1 x t ,(2)随机部分,u t 。
图2.1 真实的回归直线这种模型可以赋予各种实际意义,居民收入与支出的关系;商品价格与供给量的关系;企业产量与库存的关系;身高与体重的关系等。
以收入与支出的关系为例。
假设固定对一个家庭进行观察,随着收入水平的不同,与支出呈线性函数关系。
但实际上数据来自各个家庭,来自同一收入水平的家庭,受其他条件的影响,如家庭子女的多少、消费习惯等等,其出也不尽相同。
所以由数据得到的散点图不在一条直线上(不呈函数关系),而是散在直线周围,服从统计关系。
“线性”一词在这里有两重含义。
它一方面指被解释变量Y 与解释变量X 之间为线性关系,即另一方面也指被解释变量与参数0β、1β之间的线性关系,即。
1ty x β∂=∂,221ty β∂=∂0 ,1ty β∂=∂,2200ty β∂=∂2.1.2 随机误差项的性质随机误差项u t 中可能包括家庭人口数不同,消费习惯不同,不同地域的消费指数不同,不同家庭的外来收入不同等因素。
所以在经济问题上“控制其他因素不变”是不可能的。
随机误差项u t 正是计量模型与其它模型的区别所在,也是其优势所在,今后咱们的很多内容,都是围绕随机误差项u t 进行了。
回归模型的随机误差项中一般包括如下几项内容: (1)非重要解释变量的省略,(2)数学模型形式欠妥, (3)测量误差等,(4)随机误差(自然灾害、经济危机、人的偶然行为等)。
2.1.3 一元线性回归模型的基本假定通常线性回归函数E(y t ) = β0 + β1 x t 是观察不到的,利用样本得到的只是对E(y t ) =β0 + β1 x t 的估计,即对β0和β1的估计。
计量经济学课件

ˆ ˆ ˆ ˆ P
2.5 一元回归模型的应用:预测
Yi 0 1 X i
EYi | X i 0 1 X i
ˆ ˆX ˆi Y 0 1 i
2 2 2 i 1 i 1 i 1 i 1
n
n
n
n
1 R 1 R =1,称为完全正相关; R >0,正相关; R =0,不相关; R <0,负相关; R = 1 ,完全负相关。
10. 相关系数的检验 可通过查表对相关系数进行检验(双侧
检验或两侧检验)
H0 : R=0; H1: R≠0 在给定的显箸性水平比如 5 %下,自由 度为 n - 2(n 为样本数 ) ,通过查相关系数检 验表得一相关系数。若计算出来的相关系数 R的绝对值大于查表所得的相关系数,则否 定原假设 H 0 : R=0 ,接受 H 1 , 即认为 x 与 y 之 间存在显箸的相关,否则不相关。
1
n(n 1)
i 1 2
d x y,
n为样本数
关于Rs的检验可用Spearman‘s rank correlation test方法同相关系数检验,不同 之处是在查表时,相关系数查自由度为 n -2,而斯皮尔曼秩查样本数n。 例子 参看P39-41
第二章 一元线性回归模型
一元回归模型
性模型。 自律性的模型:由深厚的经济理论所
推导出的模型,通过对自律性模型的实证
分析,有可能发现稳定的经济规律,提高
对未来预测的准确度,并提出真正有效的
政策建议。
数据收集:需经济统计学知识
常用二类数据 ① 时间序列数据
② 横截面数据
模型的统计估计及检验 假设检验:运用收集的数据,对
计量经济学实验二 一元线性回归模型

实验二一元线性回归模型2.1 实验目的掌握一元线性回归模型的基本理论,一元线性回归模型的建立、估计、检验及预测的方法,以及相应的EViews软件操作方法。
2.2 实验内容建立中国消费函数模型。
以表2.1中国的收入与消费的总量数据为基础,建立中国消费函数的一元线性回归模型。
表2.1数据来源:2004年中国统计年鉴,中国统计出版社2.3 实验步骤2.3.1 散点相关图分析将表1.1的GDP设为变量X,总消费设为Y,建立变量X和Y的相关图,如图2.1所示。
可以看X和Y之间呈现良好的线性关系。
可以建立一元线性回归模型。
2.3.2 估计线性回归模型在数组窗口中点击Proc\Make Equation ,如果不需要重新确定方程中的变量或调整样本区间,可以直接点击OK 进行估计。
也可以在EViews 主窗口中点击Quick\Estimate Equation ,在弹出的方程设定框(见图2.2)内输入模型:Y C X 或 Y = C (1) + C (2) * X图2.2图2.3还可以通过在EViews 命令窗口中键入LS 命令来估计模型,其命令格式为:LS 被解释变量 C 解释变量系统将弹出一个窗口来显示有关估计结果(如图2.3 所示)。
因此,我国消费函数的估计式为:ˆY2329.4010.547*X =+St 1191.923 0.014899t 1.95 36.71R 2=0.99 s.e.=2091s.e .是回归函数的标准误差,即σˆ=)216(ˆ2-∑t u。
R 2是可决系数。
R 2 = 0.99,说明上式的拟合情况好,y t 变差的99%由变量x t 解释。
因为t = 36.71> t 0.05 (15) = 2.13,所以检验结果是拒绝原假设β1 = 0,即总消费和GDP 之间存在线性回归关系。
上述模型的经济解释是,GDP 每增长1 亿元,我国消费将总额将增加0.547亿元。
图2.42.3.3 残差图在估计方程的窗口选择View\ Actual, Fitted,Residual\Actual, Fitted,Residual Table,得到相应的残差图2.4。
计量经济学ppt课件(完整版)

在进行模型选择与比较时,需要注意避免过拟合和欠拟合问题,以及确保模型的稳定性和可靠性。此外 ,还需要关注模型的异方差性、共线性等问题,以确保模型的准确性和有效性。
04
时间序列分析及应用
时间序列基本概念及性质
01
时间序列定义
按时间顺序排列的一组数据,反映 现象随时间变化的发展过程。
时间序列类型
03
广义线性模型与非线性模型
广义线性模型介绍
定义
广义线性模型是一类用于描述响 应变量与一组预测变量之间关系 的统计模型,其特点在于响应变 量的期望值通过一个连接函数与 预测变量的线性组合相关联。
连接函数
连接函数是广义线性模型中一个 关键组成部分,它将响应变量的 期望值与预测变量的线性组合连 接起来。常见的连接函数包括恒 等连接、对数连接、逆连接等。
模型的统计性质
深入探讨多元线性回归模型的统计性质,包括无偏性、有效性和一致性等,并解释这些 性质在多元回归分析中的重要性。
多重共线性问题
详细讲解多重共线性的概念、产生原因、后果以及诊断和处理方法,如逐步回归、岭回 归等。
回归模型检验与诊断
模型的拟合优度 介绍衡量模型拟合优度的指标, 如可决系数、调整可决系数等, 并解释这些指标在实际应用中的 意义。
微观计量经济学在因果推断和政策评 估方面发挥着重要作用。目前,研究 者们关注于如何运用实验设计、工具 变量、双重差分等方法识别和处理内 生性问题,以更准确地估计因果关系 和评估政策效果。
高维数据处理与机器 学习
随着大数据时代的到来,高维数据处 理成为微观计量经济学面临的新挑战 。目前,研究者们正在探索如何将机 器学习等先进的数据分析技术应用于 微观计量经济学中,以处理高维数据 和挖掘更多的有用信息。
计量经济学课件一元线性回归

二、参数的普通最小二乘估计(OLS)
给定一组样本观测值(Xi, Yi)(i=1,2,…n)要 求样本回归函数尽可能好地拟合这组值. 普通最小二乘法(Ordinary least squares, OLS) 给出的判断标准是:二者之差的平方和
ˆ ˆ X )) 2 ˆ ) (Y ( Q (Yi Y i i 0 1 i
640000 352836 1210000 407044 1960000 1258884 2890000 1334025 4000000 1982464 5290000 2544025 6760000 3876961 8410000 4318084 10240000 6682225 12250000 6400900 53650000 29157448
ˆ Y 顺便指出 ,记 y ˆi Y i
则有
ˆ ˆ X ) ( ˆ ˆ X e) ˆi ( y 0 1 i 0 1 ˆ (X X ) 1 e 1 i n i
可得
ˆx ˆi y 1 i
(**)
(**)式也称为样本回归函数的离差形式。
注意:
在计量经济学中,往往以小写字母表示对均值 的离差。
易知 故
x k x
i
i
2 i
0
k X
i
i
1
ˆ k i i 1 1
ˆ ) E ( k ) k E ( ) E( i i 1 i i 1 1 1
同样地,容易得出
ˆ ) E ( w ) E( ) w E ( ) E( i i i i 0 0 0 0
1 (2 ) n
n 2
1 2
计量经济学课件全完整版

自回归移动平均模型,适用于平 稳和非平稳时间序列的预测,通 过识别、估计和诊断模型参数来 实现预测。
05
面板数据分析方法及应用
面板数据基本概念及特点
面板数据定义
面板数据,也叫时间序列截面数据或混合数 据,是指在时间序列上取多个截面,在这些 截面上同时选取样本观测值所构成的样本数 据。
介绍空间滞后模型(SLM)、空间误差模型(SEM)等空间计量经济模型的建立与估 计方法,包括极大似然估计、广义矩估计等。
贝叶斯计量经济学原理及应用
01
02
贝叶斯统计推断基础
阐述贝叶斯统计推断的基本原理和方法, 包括先验分布、后验分布、贝叶斯因子 等概念。
贝叶斯计量经济模型 的建立与估计
介绍贝叶斯线性回归模型、贝叶斯时间 序列模型等贝叶斯计量经济模型的建立 与估计方法,包括马尔科夫链蒙特卡罗 (MCMC)模拟等。
模型假设
广义线性模型假设响应变量与解释变量之间存在一 种可通过链接函数转化的线性关系,而非线性模型 则不受此限制,可以拟合任意复杂的非线性关系。
模型诊断与检验
对于广义线性模型,常用的诊断方法包括残差分析、 拟合优度检验等;对于非线性模型,由于模型的复 杂性,诊断方法可能更加多样化,包括交叉验证、 可视化分析等。
与其他社会科学的关系 计量经济学也可以应用于其他社会科学领域,如 社会学、政治学等,对社会科学现象进行定量分 析。
计量经济学发展历史及现状
发展历史
计量经济学起源于20世纪初,随着计算机技术的发展和普及,计量经济学得到 了广泛的应用和发展。
现状
目前,计量经济学已经成为经济学领域的重要分支,广泛应用于宏观经济、微 观经济、金融、国际贸易等领域。同时,随着大数据和人工智能技术的发展, 计量经济学面临着新的机遇和挑战。
计量经济学的2.3 一元线性回归模型的统计检验

ˆ ˆ P( ) 1
如果存在这样一个区间,称之为置信区间 (confidence interval); 1-称为置信系数(置信度) (confidence coefficient), 称为显著性水平(level of significance)(或犯第I类错误的概率,即拒真的概 率);置信区间的端点称为置信限(confidence limit) 或临界值(critical values)。置信区间以外的区间称 4 为临界域
由于置信区间一定程度地给出了样本参数估计 值与总体参数真值的“接近”程度,因此置信区间 越小越好。 (i t s , i t s )
2 i 2 i
要缩小置信区间,需要减小 (1)增大样本容量n,因为在同样的置信水平 下, n越大,t分布表中的临界值越小;同时,增大样本 容量,还可使样本参数估计量的标准差减小;
5
如何构造参数值的估计区间? 通过构造已知分布的统计量
6
构造统计量(1)
回顾: 在正态性假定下
以上统计量服从自由度为n-2的x2分布,n为样本量
7
构造统计量(2)
ˆ ˆ 0 和 1 服从正态分布
ˆ E ( 0 )= 0
ˆ E ( 1 )=1
Var 0) (ˆ
X
i 1 n i 1
§2.3 一元线性回归模型的统 计检验
一、参数的区间估计 二、拟合优度检验 三、参数的假设检验 (对教材内容作了扩充)
1
一、参数的区间估计
参数的两种估计:点估计和区间估计
点估计
通过样本数据得到参数的一个估计值。
(如:最小二乘估计、最大似然估计)
点估计不足:
(1)点估计给出在给定样本下估计出的参数的可能取值,但 它并没有指出在一次抽样中样本参数值到底离总体参数的真 值有多“近”。 (2)虽然在重复抽样中估计值的均值可能会等于真值,但由 于抽样波动,单一估计值很可能不同于真值。 2
计量经济学第一章PPT课件

02 回归分析基础
回归分析的定义
回归分析
是一种统计学方法,用于研究变 量之间的关系,特别是当一个变 量受到其他变量的影响时。
线性回归
在回归分析中,当自变量和因变 量之间的关系为线性时,即可以 用一条直线来描述它们之间的关 系。
非线性回归
在回归分析中,当自变量和因变 量之间的关系为非线性时,即不 能用一条直线来描述它们之间的 关系。
最小二乘法
01
最小二乘法是一种数学优化技 术,用于找到最佳拟合数据点 的函数。
02
在回归分析中,最小二乘法的 目标是找到最佳拟合数据的直 线,使得实际观测值与预测值 之间的平方和最小。
03
最小二乘法通过求解线性方程 组来找到最佳拟合直线的参数 。
模型的检验与诊断
R方值
用于衡量模型拟合优度的统计量,其值越接近于1,说明模型拟合 效果越好。
计量经济学的研究范围涵盖了微观经济学、宏观 经济学、国际经济学、金融学等多个领域。
计量经济学的发展历程
19世纪末期
统计学和经济学的结合,产生了经济计量学。
20世纪30年代
经济大萧条,人们开始利用计量经济学方法 分析经济问题。
20世纪50年代
线性代数和计算机技术的发展,推动了计量 经济学的发展。
21世纪
模型的参数估计
总结词
参数估计是根据样本数据估计线性回归模型中未知参数的过 程。
详细描述
最小二乘法是最常用的参数估计方法,它通过最小化残差平 方和来估计参数。即,对于给定的样本数据,找到一组参数 值,使得实际观测值与模型预测值之间的残差平方和最小。
模型的假设检验
总结词
假设检验是用于评估线性回归模型是否满足某些假设的过程。
PPT-第4章-一元线性回归-计量经济学及Stata应用

计量经济学的主要任务之一就是通过数据 xi , yi i 1 来获取关于
n
总体参数 ( , ) 的信息。
y
( xi , yi )
1
b
a +bx
ei
a
x
图 4.2 数据生成过程
11
4.2 OLS 估计量的推导 如何根据观测值 xi , yi i 1 来估计总体回归直线 xi ?
(4.9)
16
ˆ 的二元一次线性方程组,称为“正规方程 ˆ, 这是有关估计量 组”(normal equations)。从方程组(4.9)的第 1 个方程可得 ˆx ˆ y 1 n 1 n 其中, y yi , x xi 。 n i 1 n i 1
(4.10)
将表达式(4.10)代入方程组(4.9)的第 2 个方程可得
ˆ x ,即样本回归线一定经过 ( x , y ) 。 ˆ 从方程(4.10)可知, y
20
y
( x2 , y2 )
(x , y )
ˆx ˆ +b a
e2
e2
a +bx
e1
e1
( x1 , y1 )
x
图 4.5 总体回归线与样本回归线 4.3 OLS 的正交性
5
s 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 12 16 14 12 9 9 18 15 12 18
lnw 5.9 5.438 5.71 5.481 5.927 4.804 6.512 5.808 5.737 6.382
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
§2.3 一元线性回归模型的统计检验回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。
尽管从统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。
那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。
主要包括拟合优度检验、变量的显著性检验及参数的区间估计。
一、拟合优度检验拟合优度检验,顾名思义,是检验模型对样本观测值的拟合程度。
检验的方法,是构造一个可以表征拟合程度的指标,在这里称为统计量,统计量是样本的函数。
从检验对象中计算出该统计量的数值,然后与某一标准进行比较,得出检验结论。
有人也许会问,采用普通最小二乘估计方法,已经保证了模型最好地拟合了样本观测值,为什么还要检验拟合程度?问题在于,在一个特定的条件下做得最好的并不一定就是高质量的。
普通最小二乘法所保证的最好拟合,是同一个问题内部的比较,拟合优度检验结果所表示优劣是不同问题之间的比较。
例如图2.3.1和图2.3.2中的直线方程都是由散点表示的样本观测值的最小二乘估计结果,对于每个问题它们都满足残差的平方和最小,但是二者对样本观测值的拟合程度显然是不同的。
...........图2.3.1 图2.3.21、总离差平方和的分解已知由一组样本观测值),(i i Y X ,i =1,2…,n 得到如下样本回归直线ii X Y 10ˆˆˆββ+= 而Y 的第i 个观测值与样本均值的离差)(Y Y y i i -=可分解为两部分之和:i ii i i i i y e Y Y Y Y Y Y y ˆ)ˆ()ˆ(+=-+-=-= (2.3.1) 图2.3.3示出了这种分解,其中,)ˆ(ˆY Y y ii -=是样本回归直线理论值(回归拟合值)与观测值i Y 的平均值之差,可认为是由回归直线解释的部分;)ˆ(ii i Y Y e -=是实际观测值与回归拟合值之差,是回归直线不能解释的部分。
显然,如果i Y 落在样本回归线上,则Y 的第i 个观测值与样本均值的离差,全部来自样本回归拟合值与样本均值的离差,即完全可由i e =i y =i yˆ=Yi X X图2.3.3对于所有样本点,则需考虑这些点与样本均值离差的平方和。
由于∑∑∑∑++=i i i i i e y e yy ˆ2ˆ222可以证明∑=0ˆi i e y ,所以有∑∑∑+=222ˆi i i e y y(2.3.2) 记TSS Y Y y i i =-=∑∑22)(,称为总离差平方和(Total Sum of Squares ),反映样本观测值总体离差的大小;ESS Y Y y ii =-=∑∑22)ˆ(ˆ,称为回归平方和(Explained Sum of Squares ),反映由模型中解释变量所解释的那部分离差的大小;∑∑=-=RSS Y Y e ii i 22)ˆ(,称为残差平方和(Residual Sum of Squares ),反映样本观测值与估计值偏离的大小,也是模型中解释变量未解释的那部分离差的大小。
(2.3.2)表明Y 的观测值围绕其均值的总离差平方和可分解为两部分,一部分来自回归线,另一部分则来自随机势力。
因此,可用来自回归线的回归平方和占Y 的总离差的平方和的比例来判断样本回归线与样本观测值的拟合优度。
读者也许会问,既然RSS 反映样本观测值与估计值偏离的大小,可否直接用它作为拟合优度检验的统计量?这里提出了一个普遍的问题,即作为检验统计量的一般应该是相对量,而不能用绝对量。
因为用绝对量作为检验统计量,无法设置标准。
在这里,RSS ,即残差平方和,与样本容量关系很大,当n 比较小时,它的值也较小,但不能因此而判断模型的拟合优度就好。
2、可决系数2R 统计量根据上述关系,可以用TSSRSS TSS ESS R -==12 (2.3.3) 检验模型的拟合优度,称2R 为可决系数(coefficient of determination )。
显然,在总离差平方和中,回归平方和所占的比重越大,残差平方和所占的比重越小,则回归直线与样本点拟合得越好。
如果模型与样本观测值完全拟合,则有12=R 。
当然,模型与样本观测值完全拟合的情况是不可能发生的,2R 不可能等于1。
但毫无疑问的是该统计量越接近于1,模型的拟合优度越高。
在实际计算可决系数时,在1ˆβ已经估计出后,一个较为简单的计算公式为: ⎪⎪⎭⎫ ⎝⎛=∑∑22212ˆi i y x R β (2.3.4) 这里用到了样本回归函数的离差形式来计算回归平方和:∑∑∑===221212ˆ)ˆ(ˆii i x x y ESS ββ。
在例2.1.1的收入-消费支出例中,9766.045900207425000)777.0(ˆ222212=⨯==∑∑i iy x R β 说明在线性回归模型中,家庭消费支出总变差(variation )中,由家庭可支配收入的变差解释的部分占97.66%,模型的拟合优度较高。
由(2.3.3)知,可决系数的取值X 围为102≤≤R ,是一个非负的统计量。
它也是随着抽样的不同而不同,即是随抽样而变动的统计量。
为此,对可决系数的统计可靠性也应进行检验,这将在第3章中进行。
二、变量的显著性检验变量的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系是否显著成立作出推断,或者说考察所选择的解释变量是否对被解释变量有显著的线性影响。
从上面的拟合优度检验中可以看出,拟合优度高,则解释变量对被解释变量的解释程度就高,线性影响就强,可以推测模型线性关系成立;反之,就不成立。
但这只是一个模糊的推测,不能给出一个统计上的严格的结论。
因此,还必须进行变量的显著性检验。
变量的显著性检验所应用的方法是数理统计学中假设检验。
1、假设检验假设检验是统计推断的一个主要内容,它的基本任务是根据样本所提供的信息,对未知总体分布的某些方面的假设作出合理的判断。
假设检验的程序是,先根据实际问题的要求提出一个论断,称为统计假设,记为H 0;然后根据样本的有关信息,对H 0的真伪进行判断,作出拒绝H 0或接受H 0的决策。
假设检验的基本思想是概率性质的反证法。
为了检验原假设H 0是否正确,先假定这个假设是正确的,看由此能推出什么结果。
如果导致一个不合理的结果,则表明“假设H 0为正确”是错误的,即原假设H 0不正确,因此要拒绝原假设H 0。
如果没有导致一个不合理现象的出现,则不能认为原假设H 0不正确,因此不能拒绝拒绝原假设H 0。
概率性质的反证法的根据是小概率事件原理,该原理认为“小概率事件在一次试验中几乎是不可能发生的”。
在原假设H 0下构造一个事件,这个事件在“原假设H 0是正确”的条件下是一个小概率事件。
随机抽取一组容量为n 的样本观测值进行该事件的试验,如果该事件发生了,说明“原假设H 0是正确”是错误的,因为不应该出现的小概率事件出现了。
因而应该拒绝原假设H 0。
反之,如果该小概率事件没有出现,就没有理由拒绝原假设H 0,应该接受原假设H 0。
2、变量的显著性检验用以进行变量显著性检验的方法主要有三种:F 检验、t 检验、z 检验。
它们的区别在于构造的统计量不同。
应用最为普遍的t 检验,在目前使用的计量经济学软件包中,都有关于t 统计量的计算结果。
我们在此只介绍t 检验。
对于一元线性回归方程中的1ˆβ,已经知道它服从正态分布 ),(~ˆ2211∑ix N σββ 进一步根据数理统计学中的定义,如果真实的2σ未知,而用它的无偏估计量)2ˆ22-=∑n e i σ替代时,可构造如下统计量 1ˆ112211ˆˆˆβββσββS x t i -=-=∑ (2.3.5)则该统计量服从自由度为)2(-n 的t 分布。
因此,可用该统计量作为1β显著性检验的t 统计量。
如果变量X 是显著的,那么参数1β应该显著地不为0。
于是,在变量显著性检验中设计的原假设为:0:10=βH给定一个显著性水平α,查t 分布表(见附录),得到一个临界值)2(2-n t α。
因为t 分布是双尾分布,所以按照α查t 分布表中的临界值。
于是t >)2(2-n t α(这里的t 已不同于(2.3.5) 式,其中01=β)为原假设H 0下的一个小概率事件。
在参数估计完成后,可以很容易计算t 的数值。
如果发生了t >)2(2-n t α,则在(1-α)的置信度下拒绝原假设H 0,即变量X 是显著的,通过变量显著性检验。
如果未发生t >)2(2-n t α,则在(1-α)置信度下接受原假设H 0,即变量X 是不显著的,未通过变量显著性检验。
对于一元线性回归方程中的0β,可构造如下t 统计量进行显著性检验:0ˆ0022200ˆˆˆβββσββS x n X t i i -=-=∑∑ (2.3.6)同样地,该统计量服从自由度为)2(-n 的t 分布,检验的原假设一般仍为00=β。
在例2.1.1及例2.2.1的收入-消费支出例中,首先计算2σ的估计值 134022107425000777.045900202ˆ2ˆ2221222=-⨯-=--=-=∑∑∑n x y n e ii iβσ 于是0ˆβ和1ˆβ的标准差的估计值分别是: 0425.00018.07425000/13402ˆ22ˆ1====∑i x S σβ 41.98742500010/5365000013402ˆ222ˆ0=⨯⨯==∑∑i i x n X S σβ t 统计量的计算结果分别为:29.180425.0777.0ˆ1ˆ11===ββS t 048.141.9817.103ˆ0ˆ00-=-==ββS t 给定一个显著性水平α=0.05,查t 分布表中自由度为8(在这个例中8)2(=-n )、α=0.05的临界值,得到=)8(2αt 2.306。
可见1t >)2(2-n t α,说明解释变量家庭可支配收入在95%的置信度下显著,即通过了变量显著性检验。
但0t <)2(2-n t α,表明在95%的置信度下,无法拒绝截距项为零的假设。
三、参数的置信区间假设检验可以通过一次抽样的结果检验总体参数可能的假设值的X 围(最常用的假设为总体参数值为零),但它并没有指出在一次抽样中样本参数值到底离总体参数的真值有多“近”。
要判断样本参数的估计值在多大程度上可以“近似”地替代总体参数的真值,往往需要通过构造一个以样本参数的估计值为中心的“区间”,来考察它以多大的可能性(概率)包含着真实的参数值。
这种方法就是参数检验的置信区间估计。
要判断估计的参数值iβˆ离真实的参数值i β有多“近”,可预先选择一个概率)10(<<αα,并求一个正数δ,使得随机区间(random interval ))ˆ,ˆ(δβδβ+-ii 包含参数i β的真值的概率为1-α。