一元线性回归模型的统计检验
第2章3一元线性回归模型的统计检验
Std. Error t-Statistic
98.40598 -1.048429 0.042485 18.28900
Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)
2、变量的显著性检验
我们先来构造用于变量显著性检验的检验统计量。 (补充)
对于一元线性回归方程,我们已经知道
ˆ1 ~ N(1,
2
)
xi2
另外,可以证明(参见周纪芗《回归分析》P14):
(1) (2)
ei2 ~ 2 n 2
2
ˆ1与 ei2独立
于是,可以构造如下统计量:
ˆ1 1
t
2
R2越接近1,说明实际观测点离样本回归线越 近,拟合优度越高。
在实际计算可决系数时,在 ˆ1 已经估计出后:
R2
yˆi2 yi2
ˆ12
xi2 yi2
在例2.2.1(P34-35)的可支配收入-消费支出例子中,
R2 ˆ12
xi2 yi2
(0.777)2 7425000 0.9766 4590020
• 换句话说,一个几乎不可能发生的小概率事 件(“检验统计量的样本值落入拒绝域”) 在一次试验中就发生了,这违背了小概率事 件原理,也就意味着导致了一个不合理的结 果。
显著性检验的步骤: (★)
(1)提出原假设H0和备择假设H1; (2)计算检验统计量的样本值; (3)确定临界值和拒绝域; (4)下结论。
Std. Error t-Statistic
Prob.1.3495Fra bibliotek8 0.217507
回归模型的统计检验
分布。 F 统计量服从自由度为 ( k , n − k − 1) 的 F 分布。选定 分布表(见本书附录) 一个显著性水平 α ,查 F 分布表(见本书附录) , 可以得到一个临界值 Fα ( k , n − k − 1) 。
F检验与R2的关系
根据二者关系,有需注意的几个问题: ⑴F检验实际上也是判定系数的显著性检验。 ⑵如果模型对样本有较高的拟合优度,F检 验一般都能通过。 ⑶实际应用中不必过分苛求R2值的大小, 重要的是考察模型的经济意义是否合理。
∑ x ∑ x − (∑ x x ) ∑ x σˆ ∑ x ∑ x − (∑ x x )
2 1 2 2 1 2 2 1 2 2 1 2 2 1 2
2 x2 σ 2 ∑ ˆ
2
2
然后根据样本观测值和估计值,构造计算统计量: 然后根据样本观测值和估计值,构造计算统计量:
ˆ βi − βi t= ˆ S βi
ˆ ˆ ∑(y − y) = ∑ (y − y) + ∑ (y − y )
2 2 i i i i 2
y
yi
ei
yi − y
ˆ ( yi − y )
SRF
y
xi
x
TSS = Σ ( y i − y ) 2 ˆ ESS = Σ ( y i − y ) 2 ˆ RSS = Σ ( y i − y i ) 2
拟合优度检验统计量:可决系数( 2、拟合优度检验统计量:可决系数(判
定系数) 定系数)R2和校正可决系数 R2
(1)可决系数 )
R 2 进行拟合优度检验,可决系 用可决系数 进行拟合优度检验,
数的计算公式为: 数的计算公式为:
( yi − y )2 ∑ˆ 2 R = ( yi − y )2 ∑
线性回归模型的经典假定及检验修正
线性回归模型的经典假定及检验、修正一、线性回归模型的基本假定1、一元线性回归模型一元线性回归模型是最简单的计量经济学模型,在模型中只有一个解释变量,其一般形式是Y =β0+β1X 1+μ其中,Y 为被解释变量,X 为解释变量,β0与β1为待估参数,μ为随机干扰项。
回归分析的主要目的是要通过样本回归函数(模型)尽可能准确地估计总体回归函数(模型)。
为保证函数估计量具有良好的性质,通常对模型提出若干基本假设。
假设1:回归模型是正确设定的。
模型的正确设定主要包括两个方面的内容:(1)模型选择了正确的变量,即未遗漏重要变量,也不含无关变量;(2)模型选择了正确的函数形式,即当被解释变量与解释变量间呈现某种函数形式时,我们所设定的总体回归方程恰为该函数形式。
假设2:解释变量X 是确定性变量,而不是随机变量,在重复抽样中取固定值。
这里假定解释变量为非随机的,可以简化对参数估计性质的讨论。
假设3:解释变量X 在所抽取的样本中具有变异性,而且随着样本容量的无限增加,解释变量X 的样本方差趋于一个非零的有限常数,即∑(X i −X ̅)2n i=1n→Q,n →∞ 在以因果关系为基础的回归分析中,往往就是通过解释变量X 的变化来解释被解释变量Y 的变化的,因此,解释变量X 要有足够的变异性。
对其样本方差的极限为非零有限常数的假设,旨在排除时间序列数据出现持续上升或下降的变量作为解释变量,因为这类数据不仅使大样本统计推断变得无效,而且往往产生伪回归问题。
假设4:随机误差项μ具有给定X 条件下的零均值、同方差以及无序列相关性,即E(μi|X i)=0Var(μi|X i)=σ2Cov(μi,μj|X i,X j)=0, i≠j随机误差项μ的条件零均值假设意味着μ的期望不依赖于X的变化而变化,且总为常数零。
该假设表明μ与X不存在任何形式的相关性,因此该假设成立时也往往称X为外生性解释变量随机误差项μ的条件同方差假设意味着μ的方差不依赖于X的变化而变化,且总为常数σ2。
2.3 一元线性回归模型的统计检 ...
2、度量拟合优度的指标—可决系数R2统计量
根据上述的关系,可以用 R 2 = ESS = 1 RSS TSS TSS (2.3.3)
称 R2 为(样本)可决系数/判定系数(coefficient of determination)。 可决系数的特点: • 取值范围:[0,1] • 随抽样波动,样本可决系数是随抽样而变动的随
2 2 2 i
X )(Yi Y )
估计标准误差的评价标准:s越大,回归直线精度越 低;s越小,则回归直线精度越高,代表性越好。当 s=0时,表示所有的样本点都落在回归直线上,解释 变量与被解释变量之间表现为函数关系。
ˆi = 1.7568 + 0.7574 X i 的估计标准误差 例3 计算回归直线 Y
合程度?
因为在一个特定的条件下做的最好的并不一定就 是高质量的,普通最小二乘法所保证的最好拟合是同 一个问题内部的比较,拟合优度检验结果所表示的优 劣是不同问题之间的比较。如前页图是由散点表示的 样本观测值的最小二乘估计结果,对于每个问题它们 都满足残差的平方和最小,但是二者对样本观测值的 拟合程度显然是不同的。 拟合优度的度量建立在对总离差分解的基础
反映由模型中解释变量所解释的那部分离差的大小;
RSS = ei 2 = (Yi ˆYi ) 2
残差平方和(Residual Sum of Squares )
反映样本观测值与估计值偏离的大小,也是模型中解 释变量未解释的那部分离差的大小;
则(2.3.2)式可以表示成为: TSS=ESS+RSS Y的观测值围绕其均值的总离差(total variation) 可分解为两部分:一部分来自回归线(ESS),另一部 分则来自随机势力(RSS)。 在给定样本中,TSS不变, 如果实际观测点离样本回归线越近,则ESS在TSS 中占的比重越大,因此 拟合优度:回归平方和ESS/Y的总离差TSS
计量经济学实验二-一元线性回归模型的估计、检验和预测
目录一、加载工作文件 (7)二、选择方程 (7)1.作散点图 (7)2.进行因果关系检验 (9)三、一元线性回归 (10)四、经济检验 (12)五、统计检验 (13)六、回归结果的报告 (15)七、得到解释变量的值 (15)八、预测应变量的值 (17)实验二一元线形回归模型的估计、检验和预测实验目的:掌握一元线性回归模型的估计、检验和预测方法。
实验要求:选择方程进行一元线性回归,进行经济、拟合优度、参数显著性和方程显著性等检验,预测解释变量和应变量。
实验原理:普通最小二乘法,拟合优度的判定系数R2检验和参数显著性t检验等,计量经济学预测原理。
实验步骤:已知广东省宏观经济部分数据如表2-1所示,要根据这些数据研究和分析广东省宏观经济,建立宏观计量经济模型,从而进行经济预测、经济分析和政策评价。
实验二~实验十二主要都是用这些数据来完成一系列工作。
表2-1 广东省宏观经济数据续上表续上表一、加载工作文件广东省宏观经济数据已经制成工作文件存在盘中,命名为GD01.WF1,进入EViews后选择File/Open打开GD01.WF1。
二、选择方程根据广东数据(GD01.WF1)选择收入法国国内生产总值(GDPS)、财政收入(CS)、财政支出(CZ)和社会消费品零售额(SLC),分别把①CS作为应变量,GDPS作为解释变量;②CZ作为应变量,CS作为解释变量;③SLC作为应变量,GDPS作为解释变量进行一元线性回归分析。
1.作散点图从三个散点图(图2-1~图2~3)可以看出,三对变量都呈现线性关系。
图2-1 图2-2图2-3 2.进行因果关系检验从三个因果关系检验可以看出,GDPS是CS的因;CS不是CZ 的因;GDPS不是SLC的因。
但根据理论CS是CZ的因,GDPS是SLC的因,可能是由于指标设置问题。
所以还是把CS作为应变量,GDPS作为解释变量;CZ作为应变量,CS作为解释变量;SLC作为应变量,GDPD作为解释变量进行一元线性回归分析。
一元线性回归模型的统计检验
预测分析
学习如何对新数据进行预测,进行误差分析,并利用置信区间来评估预测的 准确性。
模型选择
学习方差分析、逐步回归和信息准则等方法,探讨如何选择最佳的一元线性 回归模型。
实例分析
通过应用案例深入理解一元线性回归模型的统计检验,展示实际数据的应用和模型的术论文和研究报告等参考文献,帮助学习者进一步深入研 究一元线性回归模型的统计检验。
参数估计
掌握OLS估计法,解释回归系数的含义,了解拟合优度,并且能够根据参数估计法对一元线性回归模型 进行参数的估计。
模型检验
进行残差分析,检验模型是否符合要求,学习诊断性检验,发现模型中的问题并作出相应的调整。
显著性检验
学习t检验、p值和显著性水平的概念,了解在一元线性回归模型中如何进行 显著性检验。
一元线性回归模型的统计 检验
了解一元线性回归模型的统计检验。包括定义与介绍,相关理论,假设检验, 样本数据,参数估计,模型检验,显著性检验,预测分析,模型选择,实例 分析。
相关理论
了解线性回归方程、残差、误差、相关系数等相关理论,掌握它们在一元线性回归模型中的含义和应用。
样本数据
学习数据的收集、处理和描述,实现对一元线性回归模型的数据样本分析, 为后续的参数估计和模型检验打下基础。
Q& A
解答学生对于一元线性回归模型的统计检验相关问题,确保学生对所学内容的充分理解。
总结
对本次PPT的主要内容进行概括,总结重点和难点,帮助学习者回顾和巩固所 学知识。
答疑环节
解答学生在本次PPT学习中的遗留问题和疑惑,确保学生能够全面理解一元线 性回归模型的统计检验。
§2.3 一元线性回归模型的统计检验
( β$i t α × s β$ , β$i + t α × s β$ )
2 i 2 i
在上述收入-消费支出例中,如果给定α =0.01, 在上述收入-消费支出例中,如果给定α =0.01, 收入 例中 查表得: 查表得:
t α (n 2) = t0.005 (8) = 3.355
2
1
由于
S β = 0.042
βi βi s β
i
~ t ( n 2)
P(tα < t < tα ) = 1α
2 2
即
P(t α <
2
β$i βi
s β$
i
< tα ) = 1 α
2
$ tα ×s <β <β +tα ×s ) =1α $ P(β $ $ i i i β β
2 i 2 i
(1- 的置信度下, (1-α)的置信度下, βi的置信区间是
可构造如下t 对于一元线性回归方程中的β0,可构造如下 统计量进行显著性检验: 统计量进行显著性检验:
t=
β0 β0 2 ∑Xi2 n∑xi2 σ
=
β0 Sβ
0
~ t(n 2)
在上述收入-消费支出例中,首先计算σ 在上述收入-消费支出例中,首先计算σ2的估计值 收入 例中
σ2 = ei2 ∑ n 2 = (yi y)2 β12 ∑(xi x)2 ∑ n 2 =13402
§2.3 一元线性回归模型的统 计检验
一、拟合优度检验 二、变量的显著性检验 三、参数的置信区间
一、拟合优度检验
含义: 含义:对样本回归直线与样本观测值之 间拟合程度的检验。 间拟合程度的检验。 指标:判定系数(可决系数) 指标:判定系数(可决系数)R2
一元线性回归模型的统计检验
三、参数的置信区间
假设检验可以通过一次抽样的结果检验总体参 假设检验 数可能的假设值的范围(如是否为零),但它并 没有指出在一次抽样中样本参数值到底离总体参 数的真值有多“近”。 要判断样本参数的估计值在多大程度上可以 “近似”地替代总体参数的真值,往往需要通过 构造一个以样本参数的估计值为中心的“区间”, 来考察它以多大的可能性(概率)包含着真实的 参数值。这种方法就是参数检验的置信区间估计 置信区间估计。 置信区间估计
1、总离差平方和的分解
已知由一组样本观测值(Xi,Yi),i=1,2…,n 得到如下样本回归直线
Yi = β 0 + β 1 X i
y i = Yi Y = (Yi Yi ) + (Yi Y ) = ei + y i
如果Yi=i 即实际观测值落在样本回归“线”上,则拟合最好 拟合最好。 拟合最好 可认为,“离差”全部来自回归线,而与“残差”无关。
对于所有样本点,则需考虑这些点与样本均值离 差的平方和,可以证明:
记 TSS = ∑ yi2 = ∑ (Yi Y ) 2
ESS = ∑ yi2 = ∑ (Yi Y ) 2 RSS = ∑ ei2 = ∑ (Yi Yi ) 2
总体平方和( 总体平方和(Total Sum of Squares) ) 回归平方和( 回归平方和(Explained Sum of Squares) ) 残差平方和( 残差平方和(Residual Sum of Squares )
一、拟合优度检验 拟合优度检验: 拟合优度检验:对样本回归直线与样本 观测值之间拟合程度的检验。 度量拟合优度的指标:判定系数 判定系数(可决 度量拟合优度的指标 判定系数 可决 系数)R2 系数 问题: 问题:采用普通最小二乘估计方法,已 经保证了模型最好地拟合了样本观测值, 为什么还要检验拟合程度?
实验3计量经济学实验一元线性回归模型
ˆ1 ~N(1,,
2
) (Xi X)2
三、知识点回顾
n 4、最小二乘估计量的性质及分布
随机干扰项 i 的方差 2 的估计 ˆ 0 和 ˆ 1 的方差表达式中都包含随机干扰项 i 的方差 2
,由于随机干扰项 i 实际上是无法观察测量的,因此其
量 Y 的平均值。
三、知识点回顾
1、四种重要的关系式
(2)总体回归函数(方程): E(YXi)01Xi
其中总体回归参数真值 0 , 1 是未知的;总体回归方程也是 未知的。
(3)样本回归函数(方程): Yˆi ˆ0 ˆ1Xi
在实际应用中,从总体中抽取一个样本,进行参数估计,从 而获得估计的回归方程,系数 ˆ 0 , ˆ1 为估计的回归系数;用 这个估计的回归方程近似替代总体回归方程,其中估计的回 归系数 ˆ 0 , ˆ1 是总体参数真值 0 , 1 的估计值;基于估计方程 计算的 Y ˆ i 就为 E (Y X i ) 的估计值; 由于我们从来就无法知道真实的回归方程,因此计量经济学 分析注重的是这个估计的回归方程和估计的回归系数;
据;普通最小二乘法给出的判断拟合程度的标准是:残差平
方和最小,即:m in Q ne i2n(Y i Y ˆi)2n Y i (ˆ0ˆ1 X i) 2
i 1
i 1
i 1
最小二乘法就是:在使上述残差平方和Q 达到最小时,确定
模型中的参数 ˆ 0 和 ˆ 1 的值,或者说在给定观测值之下,选
择出 ˆ 0 , ˆ1 的值,使残差平方和Q 达到最小。
接近,这也说明OLS估计值是非常有价值的。
三、知识点回顾
n 4、最小二乘估计量的性质及分布
一元线性回归模型的统计检验
时间序列数据预测技巧
平稳性检验
在进行时间序列数据预测前,需要进行平稳 性检验,以确保数据满足回归模型的前提假 设。
差分法
对于非平稳时间序列数据,可以通过差分法将其转 化为平稳序列,再进行回归预测。
自回归模型
利用时间序列数据自身的历史信息进行预测 ,可以构建自回归模型进行拟合和预测。
因果关系推断注意事项
均方误差(Mean Squared Er…
衡量模型预测值与实际值之间差异的平均值。
均方根误差(Root Mean Squa…
均方误差的平方根,用于衡量模型预测误差的大小。
02 回归系数显著性检验
t检验原理及应用
t检验基本原理
在一元线性回归模型中,t检验用 于检验回归系数的显著性,即检 验自变量对因变量的影响是否显
05 预测及应用场景拓展
预测区间构建方法
1 2
利用回归方程和估计的方差
通过回归方程得到预测值,再结合估计的方差计 算置信区间,从而构建预测区间。
自助法(Bootstrap) 通过自助抽样生成大量样本数据,计算每个样本 的预测值并获取其分布,进而确定预测区间。
3
贝叶斯方法
在贝叶斯框架下,通过设定先验分布和似然函数, 利用后验分布进行预测区间的构建。
置信区间估计与解释
对回归系数进行置信区间估计,解释 估计结果的含义和实际应用价值。
03 残差分析与诊断
残差图绘制及解读技巧
绘制残差图
以预测值为横轴,残差为纵轴, 绘制散点图观察残差分布情况。
解读残差图
观察残差是否随机分布在零线附 近,判断模型是否满足线性、同 方差等假设。
异常值、影响点识别与处理策略
拉格朗日乘数检验
一元线性回归模型检验
§2.4 一元线性回归的模型检验一、经济意义检验。
二、在一元回归模型的统计检验主要包括如下几种检验1、拟合优度检验(R2检验;2、自变量显著性检验(t检验;3、残差标准差检验(SE检验。
•主要检验模型参数的符号、大小和变量之间的相关关系是否与经济理论和实际经验相符合。
一、经济意义检验i•二、统计检验•回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。
•尽管从统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。
那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。
1、拟合优度检验拟合优度检验:对样本回归直线与样本观测值之间拟合程度的检验。
度量拟合优度的指标:判定系数(可决系数R2(1、总离差平方和的分解已知由一组样本观测值(X i ,Y i ,通过估计得到如下样本回归直线ii X Y 10ˆˆˆββ+=i i i i i i i y e Y Y Y Y Y Y y ˆˆ(ˆ(+=-+-=-=总离差平方和的分解ii X Y 10ˆˆˆββ+=ˆ(ˆY Y y i i -=i i i i i i i ye Y Y Y Y Y Y y ˆˆ(ˆ(+=-+-=-=Y 的i 个观测值与样本均值的离差由回归直线解释的部分回归直线不能解释的部分离差分解为两部分之和总离差平方和的分解公式:TSS=RSS+ESS,TSS 总离差平方和,ESS 为回归平方和,RSS 为残差平方和.((((((((0ˆˆˆ,0.0ˆˆ(ˆ(ˆˆ(2ˆˆ: 1022222222ˆˆˆˆˆˆ=+===-=-=--+=+=-+-=-+--+-=-+-=-=∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑ii i i i i ii i i i i i i i i i i i i i i i i i i i i i X e e Y e e e Y Y e Y Y e Y Y ESS RSS y e Y Y Y Y TSS Y Y Y YY Y Y YY Y Y Y Y Y Y Y ββ而因为证明TSS=ESS+RSSY的观测值围绕其均值的总离差(total variation可分解为两部分:一部分来自回归线(ESS,另一部分则来自随机部分(RSS。
从统计学看线性回归(1)——一元线性回归
从统计学看线性回归(1)——⼀元线性回归⽬录1. ⼀元线性回归模型的数学形式2. 回归参数β0 , β1的估计3. 最⼩⼆乘估计的性质 线性性 ⽆偏性 最⼩⽅差性⼀、⼀元线性回归模型的数学形式 ⼀元线性回归是描述两个变量之间相关关系的最简单的回归模型。
⾃变量与因变量间的线性关系的数学结构通常⽤式(1)的形式:y = β0 + β1x + ε (1)其中两个变量y与x之间的关系⽤两部分描述。
⼀部分是由于x的变化引起y线性变化的部分,即β0+ β1x,另⼀部分是由其他⼀切随机因素引起的,记为ε。
该式确切的表达了变量x与y之间密切关系,但密切的程度⼜没有到x唯⼀确定y的这种特殊关系。
式(1)称为变量y对x的⼀元线性回归理论模型。
⼀般称y为被解释变量(因变量),x为解释变量(⾃变量),β0和β1是未知参数,成β0为回归常数,β1为回归系数。
ε表⽰其他随机因素的影响。
⼀般假定ε是不可观测的随机误差,它是⼀个随机变量,通常假定ε满⾜:(2)对式(1)两边求期望,得E(y) = β0 + β1x, (3)称式(3)为回归⽅程。
E(ε) = 0 可以理解为ε对 y 的总体影响期望为 0,也就是说在给定 x 下,由x确定的线性部分β0 + β1x 已经确定,现在只有ε对 y 产⽣影响,在 x = x0,ε = 0即除x以外其他⼀切因素对 y 的影响为0时,设 y = y0,经过多次采样,y 的值在 y0 上下波动(因为采样中ε不恒等于0),若 E(ε) = 0 则说明综合多次采样的结果,ε对 y 的综合影响为0,则可以很好的分析 x 对 y 的影响(因为其他⼀切因素的综合影响为0,但要保证样本量不能太少);若 E(ε) = c ≠ 0,即ε对 y 的综合影响是⼀个不为0的常数,则E(y) = β0 + β1x + E(ε),那么 E(ε) 这个常数可以直接被β0 捕获,从⽽变为公式(3);若 E(ε) = 变量,则说明ε在不同的 x 下对 y 的影响不同,那么说明存在其他变量也对 y 有显著作⽤。
从统计学看线性回归(2)——一元线性回归方程的显著性检验
从统计学看线性回归(2)——⼀元线性回归⽅程的显著性检验⽬录1. σ2 的估计2. 回归⽅程的显著性检验 t 检验(回归系数的检验) F 检验(回归⽅程的检验) 相关系数的显著性检验 样本决定系数 三种检验的关系⼀、σ2 的估计 因为假设检验以及构造与回归模型有关的区间估计都需要σ2的估计量,所以先对σ2作估计。
通过残差平⽅和(误差平⽅和)(1)(⽤到和,其中)⼜∵(2)∴(3)其中为响应变量观测值的校正平⽅和。
残差平⽅和有n-2 个⾃由度,因为两个⾃由度与得到的估计值与相关。
(4)(公式(4)在《线性回归分析导论》附录C.3有证明)∴σ2的⽆偏估计量:(5)为残差均⽅,的平⽅根称为回归标准误差,与响应变量y 具有相同的单位。
因为σ2取决于残差平⽅和,所以任何对模型误差假设的违背或对模型形式的误设都可能严重破坏σ2的估计值的实⽤性。
因为由回归模型残差算得,称σ2的估计值是模型依赖的。
⼆、回归⽅程的显著性检验 ⽬的:检验是否真正描述了变量 y 与 x 之间的统计规律性。
假设:正态性假设(⽅便检验计算)1. t 检验 ⽤t 检验来检验回归系数的显著性。
采⽤的假设如下:原假设 H0:β1 = 0 (x 与 y 不存在线性关系)对⽴假设 H1:β1 ≠ 0 回归系数的显著性检验就是要检验⾃变量 x 对因变量 y 的影响程度是否显著。
下⾯我们分析接受和拒绝原假设的意义。
(1)接受 H0:β1 = 0 (x 与 y 不存在线性关系) 此时有两种情况,⼀种是⽆论 x 取值如何, y 都在⼀条⽔平线上下波动,即,如下图1,另⼀种情况为, x 与 y 之间存在关系,但不是线性关系,如图2。
图 1图 2 (2)拒绝 H0:β1 = 0 (x 对解释 y 的⽅差是有⽤的) 拒绝原假设也有两种情况,⼀种是直线模型就是合适的,如图 3,另⼀种情况为存在 x 对 y 的线性影响,也可通过 x 的⾼阶多项式得到更好的结果,如图 4。
计量经济学的2.3 一元线性回归模型的统计检验
ˆ ˆ P( ) 1
如果存在这样一个区间,称之为置信区间 (confidence interval); 1-称为置信系数(置信度) (confidence coefficient), 称为显著性水平(level of significance)(或犯第I类错误的概率,即拒真的概 率);置信区间的端点称为置信限(confidence limit) 或临界值(critical values)。置信区间以外的区间称 4 为临界域
由于置信区间一定程度地给出了样本参数估计 值与总体参数真值的“接近”程度,因此置信区间 越小越好。 (i t s , i t s )
2 i 2 i
要缩小置信区间,需要减小 (1)增大样本容量n,因为在同样的置信水平 下, n越大,t分布表中的临界值越小;同时,增大样本 容量,还可使样本参数估计量的标准差减小;
5
如何构造参数值的估计区间? 通过构造已知分布的统计量
6
构造统计量(1)
回顾: 在正态性假定下
以上统计量服从自由度为n-2的x2分布,n为样本量
7
构造统计量(2)
ˆ ˆ 0 和 1 服从正态分布
ˆ E ( 0 )= 0
ˆ E ( 1 )=1
Var 0) (ˆ
X
i 1 n i 1
§2.3 一元线性回归模型的统 计检验
一、参数的区间估计 二、拟合优度检验 三、参数的假设检验 (对教材内容作了扩充)
1
一、参数的区间估计
参数的两种估计:点估计和区间估计
点估计
通过样本数据得到参数的一个估计值。
(如:最小二乘估计、最大似然估计)
点估计不足:
(1)点估计给出在给定样本下估计出的参数的可能取值,但 它并没有指出在一次抽样中样本参数值到底离总体参数的真 值有多“近”。 (2)虽然在重复抽样中估计值的均值可能会等于真值,但由 于抽样波动,单一估计值很可能不同于真值。 2
用Eviews软件建立一元线性回归模型并进行有关检验的实验报告
用Eviews软件建立一元线性回归模型并进行相关检验的实验报告1.数据表1列出了某年中国部分省市城镇居民每个家庭平均全年可支配收入X与消费性支出Y 的统计数据。
2.建立模型应用EViews软件,以表1的数据可绘出可支配收入X与消费性支出Y的散点图(图2-1)。
从该三点图可以看出,随着可支配收入的增加,消费性支出也在增加,大致程线性关系。
据此,我们可以建立一元线性回归模型:Y=β0+β1·X+μ图2-1对模型作普通最小二乘法估计,在Eviews软件下,OLS的估计结果如图(2-2)所示。
Dependent Variable: YMethod: Least SquaresDate: 12/07/11 Time: 21:00Sample: 1 20Included observations: 20Variable Coefficient Std. Error t-Statistic Prob.X 0.755368 0.023274 32.45486 0.0000C 271.1197 159.3800 1.701090 0.1061R-squared 0.983198 Mean dependent var 5199.515Adjusted R-squared 0.982265 S.D. dependent var 1625.275S.E. of regression 216.4435 Akaike info criterion 13.68718Sum squared resid 843260.4 Schwarz criterion 13.78675Log likelihood -134.8718 Hannan-Quinn criter. 13.70661F-statistic 1053.318 Durbin-Watson stat 1.302512Prob(F-statistic) 0.000000图2-2OLS估计结果为^Y=271.12+0.76X(1.70) (32.45)R2=0.9832 D.W. =1.3025 F=1053.3183.模型检验从回归估计的结果看,模型拟合较好。
第三节 一元线性回归模型的统计检验
二、模型的显著性检验
模型的显著性检验,就是检验模型对总体的 近似程度。最常用的检验方法是F检验或者R 检验。 1. F检验 ∑( yi y ) 2 / k F= ~ F (k , n k 1) 2 ∑ ei / n k 1
给定的显著水平
α,可由F分布表查得临界值,进行判断:
若 F0 > Fα ,可以认为模型的线性关系是显著的; 若 F0 ≤ Fα ,则接受 H ,认为模型的线性关系不显著,回 0 归模型无效。
方程的显著性检验, 方程的显著性检验,旨在对模型中被解释变 量与解释变量之间的线性关系在总体上是否显著 成立作出推断。 成立作出推断。
1、方程显著性的 检验 、方程显著性的F检验
即检验模型
Yi=β0+β1X1i+β2X2i+ … +βkXki+i i=1,2, …,n
中的参数βj是否显著不为0。 可提出如下原假设与备择假设: H0: β0=β1=β2= … =βk=0 H1: βj不全为0
注意: 注意:一个有趣的现象
(Y Y ) = (Y Y ) + (Y Y ) (Y Y ) ≠ (Y Y ) + (Y Y ) ∑ (Y Y ) = ∑ (Y Y ) + ∑ (Y Y )
i i i i 2 2 2 i i i i 2 2 i i i i
2
TSS=ESS+RSS Y的观测值围绕其均值的总离差 总离差(total variation) 总离差 可分解为两部分:一部分来自回归线 一部分来自回归线(ESS),另一部 一部分来自回归线 , 分则来自随机因素的影响(RSS)。 分则来自随机因素的影响 在给定样本中,TSS不变, 如果实际观测点离样本回归线越近,则ESS在 TSS中占的比重越大,因此 拟合优度:回归平方和ESS/Y的总离差TSS 拟合优度:回归平方和ESS/Y的总离差TSS ESS/Y的总离差
第二章 回归分析概要3(一元统计检验)
第二章 回归分析概要第三节 一元线性回归模型的统计检验根据第一章第二节里,我们讲过的计量经济学模型检验规则可知,在利用OLS 法估计了一元线性回归模型的参数,并确定了样本回归线后,首先要根据经济理论及实际问题中X 和Y 的对应关系,对回归系数的符号、大小及相互关系进行直观判断,如果上述检验通过的话,还须对估计值进行统计学检验。
回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线来替代总体回归线。
尽管,从统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于总体的参数真值,但是,在一次抽样中,估计值不一定就等于该真值。
那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验,主要包括拟合优度检验、变量的显著性检验以及参数检验的置信区间估计。
一、拟合优度检验拟合优度检验,顾名思义,是检验模型对样本观测值的拟合程度(即回归直线对观测值的拟合程度)。
显然,若样本观测值离回归直线越近,则拟合优度越好,X 对Y 的解释程度越强;反之,则拟合优度差,X 对Y 的解释程度弱。
(参看课本44页图3.2.3)因为样本值太多,分别考察每一个离差是不切实际的,又为了克服绝对值符号在计算上带来的不便,因此,常使用离差平方和来考察总离差(推导过程课本44页)。
被解释变量的总离差平方和TSS可解释平方和(回归平方和)ESS 残差平方和RSS 因此,显然,ESS 在TSS 的构成中所占比例越大,RSS 在TSS 中所占的比例就越小,说明回归参数估计值的显著性越强,即样本回归线与真实回归线的拟合优度就越好。
因此,可以用ESS 在TSS 中所占的比例表示样本回归线与总体回归线的拟合程度。
二、变量的显著性检验 1. 相关系数的检验样本相关系数定义公式:)ˆ()ˆ(t t t t y y y y y y -+-=-RSS ESS TSS uRSS y yESS y y TSS t t t +==-=-=∑∑∑222)ˆ()ˆ()(100,01)()ˆ(22222≤≤∴≤≤≤≤-=--==∑∑R TSS ESS TSS RSS TSSRSS R y y y y TSS ESS R t t样本相关系数的性质:(1) r 的取值介于-1和1之间。
一元线性回归模型的统计检验概述(doc 8页)
一元线性回归模型的统计检验概述(doc 8页)§2.3 一元线性回归模型的统计检验回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。
尽管从统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。
那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。
主要包括拟合优度检验、变量的显著性检验及参数的区间估计。
一、拟合优度检验拟合优度检验,顾名思义,是检验模型对样本观测值的拟合程度。
检验的方法,是构造一个可以表征拟合程度的指标,在这里称为统计量,统计量是样本的函数。
从检验对象中计算出该统计量的数值,然后与某一标准进行比较,得出检验结论。
有人也许会问,采用普通最小二乘估计方法,已经保证了模型最好地拟合了样本观测值,为什么还要检验拟合程度?问题在于,在一个特定的条件下做得最好的并不一定就是高质量的。
普通最小二乘法所保证的最好拟合,是同一个问题内部的比较,拟合优度检验结果所表示优劣是不同问题之间的比较。
例如图2.3.1和图2.3.2中的直线方程都是由散点表示的样本观测值的最小二乘估计结果,对于每个问题它们都满足残差的平方和最小,但是二者对样本观测值的拟合程度显然是不同的。
....... . .. .图2.3.1 图2.3.21、总离差平方和的分解已知由一组样本观测值),(ii Y X ,i =1,2…,n 得到如下样本回归直线i i X Y 10ˆˆˆββ+=而Y 的第i 个观测值与样本均值的离差)(Y Y y i i -=可分解为两部分之和:ii i i i i i y e Y Y Y Y Y Y y ˆ)ˆ()ˆ(+=-+-=-= (2.3.1)图2.3.3示出了这种分解,其中,)ˆ(ˆY Y y ii -=是样本回归直线理论值(回归拟合值)与观测值i Y 的平均值之差,可认为是由回归直线解释的部分;)ˆ(i i i Y Y e -=是实际观测值与回归拟合值之差,是回归直线不能解释的部分。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3. 怎样进行拟合优度检验 (1)总离差平方和的分解 已知有一组样本观测值( Xi ,Yi )(i 1, 2, , n),得到 如下样本回归直线:
Yˆi ˆ0 ˆ1Xi
Y的第i个观测值与样本均值的离差yi Yi Y 可分 解为两部分之和:
yi Yi Y Yi Yˆi Yˆi Y ei yˆi (1)
规则:p值越小,越能拒绝原假设H0.
三、回归系数的置信区间
对参数作出的点估计虽然是无偏估计,但一 次抽样它并不一定等于真实值,所以需要找到包 含真实参数的一个范围,并确定这个范围包含参 数真实值的可靠程度。
在变量的显著性检验中已经知道:
t ˆi i ~ t(n 2) i=0,1
Sˆi
给出置信度1,查自由度为(n 2)的t分布表,
假设检验的步骤: (1)提出原假设和备择假设; (2)根据已知条件选择检验统计量; (3)根据显著性水平确定拒绝域或临界值; (4)计算出统计量的样本值并作出判断。
(2)变量的显著性检验
对于最小二乘估计量ˆ1,已经知道它服从正态分布
ˆ1 ~ N(1,
2
xi2 )
由于真实的 2未知,在用它的无偏估计量ˆ 2
在上述收入——消费支出的例子中,如果给定
=0.01,查表得:
t 2 (n 2) t0.005 (8) 3.355
由于
Sˆ1 0.042
Sˆ0 98.41
于是,计算得到1、0的置信区间分别为:
(0.6345,0.9195)
(-433.32,226.98)
则
TSS RSS ESS
Y的观测值围绕其均值的总离差可分解为两部 分:一部分来自回归线(RSS),另一部分则来自随 机势力(ESS)。因此,我们可以用回归平方和RSS 占Y的总离差平方和TSS的比例来度量样本回归线 与样本观测值的拟合优度。
注意英文缩写的含义
TSS: Total Sum of Squares / 总离差平方和
t0 2.306,说明在5%的显著性水平下,无法拒 绝截距为零的假设。
假设检验的p值:
p值是拒绝原假设的最低显著性水平,是基于既定 的样本数据所计算的统计量而算出的。
统计分析软件中通常都给出了检验的p值。 以t检验的双侧检验为例来说明。
显著性水平为时的临界值:t 2
由样本计算出的统计量为:t*
P t t 2
度量不含因果关系的对 称相关关系
取值:[-1,1]
二、变量的显著性检验
1.什么是变量的显著性检验
变量的显著性检验是对模型中被解释变量与某个 解释变量之间的线性关系在总体上是否显著成立作 出判断,或者说考察所选择的解释变量是否对被解 释变量有显著的线性影响。
在一元线性模型中,就是要判断X是否对Y具有 显著的线性影响。
(1)假设检验
所谓假设检验,就是事先对总体参数提出一个 假设,然后利用样本信息来判断这个假设是否合 理,从而决定是接受或否定这个假设。
假设检验采用的是具有概率性质的反证法。先 假定原假设正确,然后根据样本信息,观察由此 假设而导致的结果是否合理,从而判断是否接受 原假设。判断结果合理与否,依据是小概率事件 原理。
ei2 (n 2)替代时,可构造如下统计量
t ˆ1 1 ˆ1 1 ~ t(n 2)
ˆ 2 xi2
Sˆ1
检验步骤: (1)对总体参数提出假设
H0 : 1 0
H1 : 1 0
(2)以原假设H0构造t统计量,并由样本计算其值
t ˆ1
S ˆ1
(3)给定显著性水平,查t分布表,得临界值t (n 2)
yˆi Yˆi Y 是样本回归拟合值与观测值的平均值之
差,可认为是由回归直线解释的部分;
ei Yi Yˆi 是实际观测值与回归拟合值之差,是
回归直线不能解释的部分。
对于所有样本点, 我们
yi2 yˆi2 ei2 2 yˆiei yˆiei (ˆ1xi )ei ˆ1(Xi X )ei 0
ˆ 2 ei2 yi2 ˆ12 xi2 4590020 0.7772 7425000 13402
n2
n2
10 2
于是ˆ1、ˆ0的标准差的估计值分别是:
Sˆ1 ˆ 2 xi2 13402 / 7425000 0.0018 0.0425
Sˆ0 ˆ 2
X
2 i
n
xi2 1340253650000 /10 7425000 98.41
第三节 一元线性回归模型的统计检验
• 拟合优度检验 • 变量的显著性检验 • 回归系数的置信区间
一、拟合优度检验
1.什么是拟合优度检验 拟合优度检验:对样本回归线与样本观测值 之间拟合优劣程度的检验。
2.为什么要进行拟合优度检验
(a)拟合得好,(b)拟合得差,同样使残差平方 和达到最小,拟合得好坏却不一样,所以必须进行 拟合优度检验。
计量经济学中,主要是针对变量的参数真值是 否为零来进行变量的显著性检验的。
2.为什么要对变量进行显著性检验
所估计的回归系数ˆ0、ˆ1是通过样本估计的,
都是随抽样而变动的随机变量,它们是否可靠, 是否是抽样的偶然结果,还需要加以检验。
3. 如何进行变量的显著性检验
变量的显著性检验所应用的方法是数理统计学中 的假设检验。
RSS: Regression Sum of Squares / 回归平方和 Residual Sum of Squares / 残差平方和
ESS: Error Sum of Squares / 误差平方和(残差平方和) Explained Sum of Squares / 解释平方和(回归平方和)
(2)样本可决系数
定义:回归平方和在总离差平方和中所占的比 重称为样本可决系数/判定系数,用r2表示:
r2 RSS 1 ESS TSS TSS
yˆi2 yi2
1
ei2 yi2
样本可决系数的取值范围:[0,1]
r2越接近1,说明实际观测点离样本线越近,拟 合优度越高。
实际计算样本可决系数时,在ˆ1已经估计出
P t t* p
注意: t检验是比较t*和t 2
p值检验是比较p和
用p值判断参数的显著性检验的方法:
(1)若p < α,则在显著性水平下拒绝原假设 H0 : 1 0,即认为X 对Y有显著性影响;
(2)若p > α,则在显著性水平下接受原假设 H0 : 1 0,即认为X 对Y没有显著性影响;
所以有
yi2 yˆi2 ei2
记 TSS yi2 (Yi Y )2 总离差平方和(Total
Sum of Squares)
RSS yˆi2 (Yˆi Y )2 回归平方和(Regression
Sum of Squares)
ESS ei2 (Yi Yˆi )2
残差平方和( Error Sum of Squares )
r2
yˆi2 yi2
ˆ12
xi2 yi2
( (
xi yi )2 xi2 )2
xi2 yi2
( xi yi )2 r2 ( xi2 )( yi2 )
区别:
可决系数
相关系数
就模型而言
就两个变量而言
说明解释变量对因变量 的解释程度 度量不对称的因果关系
取值:[0,1]
度量两个变量线性依存 程度
2
(4)比较,判断
若 t t (n 2),则拒绝H0,接受H1;
2
若 t t (n 2),则拒绝H1,接受H0.
2
对常数项0的显著性检验与此类似。检验时用的
统计量为:
t
ˆ0 0
ˆ0 0 ~ t(n 2)
ˆ 2
X
2 i
n
xi2
Sˆ0
在上述收入——消费支出例子中,首先计算 2的
估计值:
t统计量的计算结果分别为:
t1 ˆ1 Sˆ1 0.777 / 0.0425 18.29 t0 ˆ0 Sˆ0 103.17 / 98.41 1.048 给定显著性水平 0.05,查t分布表得临界值
t0.025 (8) 2.306
t1 2.306,说明家庭可支配收入在5%的显著性 水平下显著,即通过了变量的显著性检验;
rXY
n
( Xi X )(Yi Y )
i 1
n
n
( Xi X )2 (Yi Y )2
i 1
i 1
n
xi yi
i 1
n
n
xi2 yi2
i1 i1
其中X 和Y 分别是变量X与Y的样本均值。 r的取值范围是:[-1,1]
(4)样本可决系数与样本相关系数的关系 联系:
在数值上, 一元线性回归模型的样本可决系 数等于被解释变量与解释变量之间样本相关系数 的平方:
得临界值t 2 (n 2),t值落在(t 2,t 2 )的概率是
1 ,即
P t 2 t t 2 1
将t统计量值代入得
P t
2
ˆi i
Sˆi
t
2
1
整理得
P ˆi t 2 Sˆi i ˆi t 2 Sˆi 1
于是得到1 的置信度下i的置信区间为:
(ˆi t 2 Sˆi , ˆi t 2 Sˆi )
后,一个较为简单的计算公式为:
r2
yˆi2 yi2
(ˆ1xi )2
yi2
ˆ12
xi2 yi2
在例2.1的收入-消费支出例子中,
r2 ˆ12
xi2 yi2
(0.777)2 7425000 4590020
0.9766
(3)样本相关系数
定义:样本相关系数是变量X与Y之间线性相关程 度的度量指标。其计算公式为: