第2章(3)一元线性回归模型的统计检验
第2章3一元线性回归模型的统计检验
![第2章3一元线性回归模型的统计检验](https://img.taocdn.com/s3/m/f0332c76492fb4daa58da0116c175f0e7cd119ef.png)
Std. Error t-Statistic
98.40598 -1.048429 0.042485 18.28900
Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)
2、变量的显著性检验
我们先来构造用于变量显著性检验的检验统计量。 (补充)
对于一元线性回归方程,我们已经知道
ˆ1 ~ N(1,
2
)
xi2
另外,可以证明(参见周纪芗《回归分析》P14):
(1) (2)
ei2 ~ 2 n 2
2
ˆ1与 ei2独立
于是,可以构造如下统计量:
ˆ1 1
t
2
R2越接近1,说明实际观测点离样本回归线越 近,拟合优度越高。
在实际计算可决系数时,在 ˆ1 已经估计出后:
R2
yˆi2 yi2
ˆ12
xi2 yi2
在例2.2.1(P34-35)的可支配收入-消费支出例子中,
R2 ˆ12
xi2 yi2
(0.777)2 7425000 0.9766 4590020
• 换句话说,一个几乎不可能发生的小概率事 件(“检验统计量的样本值落入拒绝域”) 在一次试验中就发生了,这违背了小概率事 件原理,也就意味着导致了一个不合理的结 果。
显著性检验的步骤: (★)
(1)提出原假设H0和备择假设H1; (2)计算检验统计量的样本值; (3)确定临界值和拒绝域; (4)下结论。
Std. Error t-Statistic
Prob.1.3495Fra bibliotek8 0.217507
计量经济学复习资料2
![计量经济学复习资料2](https://img.taocdn.com/s3/m/a0eca0ed998fcc22bcd10dd0.png)
2、如果假设 4 满足,则假设 2 也满足。
以上假设也称为线性回归模型的经典假设或高斯(Gauss)假设,满足该假设的线性回归模
型,也称为经典线性回归模型
二、参数的普通最小二乘估计(OLS)
给定一组样本观测值(Xi, Yi)(i=1,2,…n)要求样本回归函数尽可能好地拟合这组值.
普通最小二乘法给出的判断标准是:二者之差的平方和最小。
R 2 1 RSS /(n k 1) TSS /(n 1) 其中:n-k-1 为残差平方和的自由度,n-1 为总体平方和
的自由度。
R 2 1 (1 R 2 ) n 1 n k 1
三、方程的显著性检验(F 检验) H0: ß0= ß1= ß2= … =ßk=0 H1: ßj 不全为 0
TSS yi2 (Yi Y )2 总体平方和
ESS yˆi2 (Yˆi Y )2 回归平方和
RSS ei2 (Yi Yˆi )2 残差平方和
1、TSS=ESS+RSS 2、可决系数 R2 统计量
记
R 2 ESS 1 RSS
TSS
TSS
称 R2 为(样本)可决系数/判定系数 可决系数的取值范围:[0,1] R2 越接近 1,说明实际观测点离样本线越近,拟合优度越高。 T 检验 检验步骤: (1)对总体参数提出假设
n
n
Q (Yi Yˆi )2 (Yi (ˆ0 ˆ1 X i ))2
1
1
xi2
(X i X )2
X
2 i
1 n
Xi 2
xi yi
(X i X )(Yi Y )
X
iYi
1 n
X i Yi
上述参数估计量可以写成:
ˆ1
一元线性回归模型的统计检验
![一元线性回归模型的统计检验](https://img.taocdn.com/s3/m/9ec9a8a3910ef12d2af9e7ac.png)
3. 怎样进行拟合优度检验 (1)总离差平方和的分解 已知有一组样本观测值( Xi ,Yi )(i 1, 2, , n),得到 如下样本回归直线:
Yˆi ˆ0 ˆ1Xi
Y的第i个观测值与样本均值的离差yi Yi Y 可分 解为两部分之和:
yi Yi Y Yi Yˆi Yˆi Y ei yˆi (1)
规则:p值越小,越能拒绝原假设H0.
三、回归系数的置信区间
对参数作出的点估计虽然是无偏估计,但一 次抽样它并不一定等于真实值,所以需要找到包 含真实参数的一个范围,并确定这个范围包含参 数真实值的可靠程度。
在变量的显著性检验中已经知道:
t ˆi i ~ t(n 2) i=0,1
Sˆi
给出置信度1,查自由度为(n 2)的t分布表,
假设检验的步骤: (1)提出原假设和备择假设; (2)根据已知条件选择检验统计量; (3)根据显著性水平确定拒绝域或临界值; (4)计算出统计量的样本值并作出判断。
(2)变量的显著性检验
对于最小二乘估计量ˆ1,已经知道它服从正态分布
ˆ1 ~ N(1,
2
xi2 )
由于真实的 2未知,在用它的无偏估计量ˆ 2
在上述收入——消费支出的例子中,如果给定
=0.01,查表得:
t 2 (n 2) t0.005 (8) 3.355
由于
Sˆ1 0.042
Sˆ0 98.41
于是,计算得到1、0的置信区间分别为:
(0.6345,0.9195)
(-433.32,226.98)
则
TSS RSS ESS
Y的观测值围绕其均值的总离差可分解为两部 分:一部分来自回归线(RSS),另一部分则来自随 机势力(ESS)。因此,我们可以用回归平方和RSS 占Y的总离差平方和TSS的比例来度量样本回归线 与样本观测值的拟合优度。
第三节 一元线性回归模型的统计检验
![第三节 一元线性回归模型的统计检验](https://img.taocdn.com/s3/m/3ba85f250722192e4536f6c7.png)
ˆ ˆ ˆ y i = Yi − Y = (Yi − Yi ) + (Yi − Y ) = ei + y i
如果Yi=Ŷi 即实际观测值落在样本回归“线”上,则拟合最好 拟合最好。 拟合最好 可认为,“离差”全部来自回归线,而与“残差”无关。 “离差”
类似, 对多元线性回归方程 : ˆ ˆ ˆ yi = β 0 + β1 ⋅ x1i + L β k ⋅ xki ˆ
F检验与R检验结果一致(P44图2-7):
n − k −1 TSS = F= RSS RSS k (n − k − 1) TSS R n − k − 1 R2 = ⋅ k 1 − R2 kF 2 R = (n − k − 1) + kF
因此,实际应用可选择其一。
ESS
ESS
多元线性回归模型的显著性检验(F检验 多元线性回归模型的显著性检验 检验 模型的显著性检验 检验)
ˆ ) 2 + ∑ (Y − Y ) 2 = RSS + ESS ˆ 所以有: TSS = ∑ (Yi − Yi i
注意: 注意:一个有趣的现象
(Y − Y ) = (Y − Yˆ ) + (Yˆ − Y ) (Y − Y ) ≠ (Y − Yˆ ) + (Yˆ − Y ) ∑ (Y − Y ) = ∑ (Y − Yˆ ) + ∑ (Yˆ − Y )
总离差平方和分解公式 总离差平方和分解公式: TSS=ESS+RSS 公式 其中: 其中
则
TSS = Σ(Yi − Y ) 2 ˆ ˆ = Σ((Yi − Yi ) + (Yi − Y )) 2 ˆ ˆ ˆ ˆ = Σ(Yi − Yi ) 2 + 2Σ(Yi − Yi )(Yi − Y ) + Σ(Yi − Y ) 2
一元线性回归模型.ppt
![一元线性回归模型.ppt](https://img.taocdn.com/s3/m/20b06c52f121dd36a22d8287.png)
4.截距为0的一元线性回归模型参数估 计式
一元线性回归模型参数估计举例( P23页)
四、估计量的统计学性质
1. 线性性:bˆ0 , bˆ1 都是Yi的线性函数。
bˆ1
xi
y i
x2 i
xi (Y i Y
x2 i
)
xiY i
ˆ 的密度函数
Var(ˆ)
0
E(ˆ )
为什么具有BLUE性质的估计量是优良的估计量?
五、 bˆ0 ,bˆ1 的分布
bˆ0
、bˆ1
都 服从正态分布
bˆ0 ˜N(b0 、
X
2 i
n
x2 i
u2
)
1
x bˆ1 ˜N(b1 、
2 i
u2
)
(证明略)
六、随机项u的方差2的估计
1(.定证理明:从略ˆu2) n e2i2 是 u2的一个无偏估计值
假定六:解释变量X 是一组确定性变量, 随机扰动项 ui与解释变量Xi无关, 即
Cov( ui,Xj )=0 。 假定七:解释变量之间不是完全线性相 关的。称无完全多重共线性。
对假定的学习思路:先结合随机项的特性,理 解假定含义,认为这些假定是成立的,学习参 数的估计、模型检验等。然后,在后面的章 节讨论这些假定是否成立?不成立会出现什 么问题?怎样检验?如何解决?
把握这个思路很重要哦!
四、回归分析 1.什么是回归分析? 是回归模型的建立、估计、检验理论和 方法的统称 2.回归分析的主要内容
建立模型、估计模型、检验模型 、应用
二、四种重要的关系式
• 1. 总体关系式:Yi=b0+ u b1Xi+ i
计量经济学第二章
![计量经济学第二章](https://img.taocdn.com/s3/m/59b875de7f1922791688e8af.png)
二、参数的普通最小二乘估计
Q
e
2 i
(Y
i
Yi )
2
[Y
i
( 0 1 X i )]
2
Q 对 0 , 1 求 一 阶 偏 导 令 其 为 0, 得 到 :
0 1
LOGO
LOGO
微积分 求:当x,y为多少时,F=f(x,y)最小或最大? 解:将F分别对x,y求一阶偏导,并令其等于0:
F x F y 0
例 如 : F 1 0 x 8 y 6 xy
2 3
0
如 何 求 F的 极 值 ?
由此便可解出x,y
LOGO
称为总体回归函数(PRF). 总体回归函数表明被解释变量Yi的平均状态 (总体条件期望)随解释变量Xi的变化规律。
LOGO
我们可以把总体回归函数简化为线性的形式:
E (Y X i ) 0 1 * X i
(2.1.4)
其中: 0 , 1 是未知的参数,称为回归系数。 (2.1.4)也称为线性总体回归函数。
LOGO
总体回归函数表明被解释变量Yi的平均状态 E (Y X i )随解释变量Xi的变化规律。 那么,对于某一个具体的家庭来说,它的消费支 出Yi就恰好等于给定收入水平Xi下的消费支出的平均 值(Y (X i )X i ) 吗? E E Y 所以,对于每一个具体的家庭,记
LOGO
在函数关系中,给定一个X,只有一个确定的Y与 之对应,因此X,Y都是确定性变量; 在相关关系中,给定一个X,有多个Y与之相对应, 因此当给定的X为确定性变量时,Y是一个不确定 的变量,称为随机变量。
一元线性回归分析
![一元线性回归分析](https://img.taocdn.com/s3/m/63b70faad5bbfd0a795673de.png)
总体回归函数
·y i4
y01x
样本回归
·y i 3
yˆ0ˆ1x 函数
yi0
· y i0 0 1 x i E y x x i
·y ·y
i i
2 1
0
2019/11/13
xi 朱晋
x
16
• 回归函数(PRF)说明被解释变量Y的平均状态
(总体条件期望)随解释变量X变化的规律。
2100 1900 1700 1500
Y 1300 1100 900 700 500 0
2019/11/13
500
1000
1500
2000
ቤተ መጻሕፍቲ ባይዱ
2500
3000
X
朱晋
14
在给定解释变量Xi 条件下被解释变量Yi Y的期望轨迹称为 总体回归线(population regression line),或更一般地称为总
yi 01xiui
• 利用样本观察值找出参数 0 和 1的估计值,
得到样本回归模型:
yˆi ˆ0ˆ1xi
• 检验估计值的性质,并利用样本回归模
型分析被解释变量的总体平均规律。
2019/11/13
朱晋
8
• 由于变量间关系的随机性,回归分析关心的是根据 解释变量的已知或给定值,考察被解释变量的总体
2019/11/13
朱晋
20
• 3、总体线性回归模型(2.1.3)的基本假设有:
• 1、随机误差项的均值为零 Eui0
• 2、随机误差项各分量的方差相等(等方差)
D u i V u ia u 2 r ,i 1 ,2 , ,n
• 3、随机误差项在不同样本点之间是独立的,
§2.3 一元线性回归模型的统计检验
![§2.3 一元线性回归模型的统计检验](https://img.taocdn.com/s3/m/8bd3d0f5f61fb7360b4c6511.png)
( β$i t α × s β$ , β$i + t α × s β$ )
2 i 2 i
在上述收入-消费支出例中,如果给定α =0.01, 在上述收入-消费支出例中,如果给定α =0.01, 收入 例中 查表得: 查表得:
t α (n 2) = t0.005 (8) = 3.355
2
1
由于
S β = 0.042
βi βi s β
i
~ t ( n 2)
P(tα < t < tα ) = 1α
2 2
即
P(t α <
2
β$i βi
s β$
i
< tα ) = 1 α
2
$ tα ×s <β <β +tα ×s ) =1α $ P(β $ $ i i i β β
2 i 2 i
(1- 的置信度下, (1-α)的置信度下, βi的置信区间是
可构造如下t 对于一元线性回归方程中的β0,可构造如下 统计量进行显著性检验: 统计量进行显著性检验:
t=
β0 β0 2 ∑Xi2 n∑xi2 σ
=
β0 Sβ
0
~ t(n 2)
在上述收入-消费支出例中,首先计算σ 在上述收入-消费支出例中,首先计算σ2的估计值 收入 例中
σ2 = ei2 ∑ n 2 = (yi y)2 β12 ∑(xi x)2 ∑ n 2 =13402
§2.3 一元线性回归模型的统 计检验
一、拟合优度检验 二、变量的显著性检验 三、参数的置信区间
一、拟合优度检验
含义: 含义:对样本回归直线与样本观测值之 间拟合程度的检验。 间拟合程度的检验。 指标:判定系数(可决系数) 指标:判定系数(可决系数)R2
第二章 一元线性回归模型
![第二章 一元线性回归模型](https://img.taocdn.com/s3/m/aa6bf61959eef8c75fbfb30b.png)
∂Q ˆ ˆ = −2∑ (Yi − β 0 − β1 X i ) = 0 ∂β ˆ0 ˆ ˆ ∂Q = −2∑ (Y − β − β X )X = 0 i 0 1 i i ˆ ∂β1
化简得: 化简得:
ˆ ˆ ∑ (Yi − β 0 − β1 X i ) = 0 ˆ ˆ ∑ (Yi − β 0 − β1 X i )X i = 0
2.总体回归方程(线)或回归函数 总体回归方程( 总体回归方程 即对( )式两端取数学期望: 即对(2.8)式两端取数学期望:
E y i)= β 0 + β 1 x i (
(2.9)
(2.9)为总体回归方程。由于随机项的影响,所 )为总体回归方程。由于随机项的影响, 有的点( )一般不在一条直线上; 有的点(x,y)一般不在一条直线上;但所有的点 (x,Ey)在一条直线上。总体回归线描述了 与y )在一条直线上。总体回归线描述了x与 之间近似的线性关系。 之间近似的线性关系。
Yi = β X i + ui
需要估计, 这个模型只有一个参数 需要估计,其最 小二乘估计量的表达式为: 小二乘估计量的表达式为:
∑XY ˆ β= ∑X
i i 2 i
例2.2.1:在上述家庭可支配收入-消费支出例中,对 :在上述家庭可支配收入-消费支出例中, 于所抽出的一组样本数据, 于所抽出的一组样本数据,参数估计的计算可通过下面 的表2.2.1进行。 进行。 的表 进行
二、一元线性回归模型 上述模型中, 为线性的, 上述模型中, 若f(Xi)为线性的,这时的模型 为线性的 一元线性回归模型: 即为 一元线性回归模型:
yi = β 0 + β1 xi + ui 其中:yi为被解释变量,xi为解释变量,ui为随机误 差项,β 0、β1为回归系数。
计量经济学的2.3 一元线性回归模型的统计检验
![计量经济学的2.3 一元线性回归模型的统计检验](https://img.taocdn.com/s3/m/b5ed83a6f524ccbff12184f3.png)
ˆ ˆ P( ) 1
如果存在这样一个区间,称之为置信区间 (confidence interval); 1-称为置信系数(置信度) (confidence coefficient), 称为显著性水平(level of significance)(或犯第I类错误的概率,即拒真的概 率);置信区间的端点称为置信限(confidence limit) 或临界值(critical values)。置信区间以外的区间称 4 为临界域
由于置信区间一定程度地给出了样本参数估计 值与总体参数真值的“接近”程度,因此置信区间 越小越好。 (i t s , i t s )
2 i 2 i
要缩小置信区间,需要减小 (1)增大样本容量n,因为在同样的置信水平 下, n越大,t分布表中的临界值越小;同时,增大样本 容量,还可使样本参数估计量的标准差减小;
5
如何构造参数值的估计区间? 通过构造已知分布的统计量
6
构造统计量(1)
回顾: 在正态性假定下
以上统计量服从自由度为n-2的x2分布,n为样本量
7
构造统计量(2)
ˆ ˆ 0 和 1 服从正态分布
ˆ E ( 0 )= 0
ˆ E ( 1 )=1
Var 0) (ˆ
X
i 1 n i 1
§2.3 一元线性回归模型的统 计检验
一、参数的区间估计 二、拟合优度检验 三、参数的假设检验 (对教材内容作了扩充)
1
一、参数的区间估计
参数的两种估计:点估计和区间估计
点估计
通过样本数据得到参数的一个估计值。
(如:最小二乘估计、最大似然估计)
点估计不足:
(1)点估计给出在给定样本下估计出的参数的可能取值,但 它并没有指出在一次抽样中样本参数值到底离总体参数的真 值有多“近”。 (2)虽然在重复抽样中估计值的均值可能会等于真值,但由 于抽样波动,单一估计值很可能不同于真值。 2
计量经济学 第二章 一元线性回归模型
![计量经济学 第二章 一元线性回归模型](https://img.taocdn.com/s3/m/b2ff1c1a10661ed9ad51f3fb.png)
计量经济学第二章一元线性回归模型第二章一元线性回归模型第一节一元线性回归模型及其古典假定第二节参数估计第三节最小二乘估计量的统计特性第四节统计显著性检验第五节预测与控制第一节回归模型的一般描述(1)确定性关系或函数关系:变量之间有唯一确定性的函数关系。
其一般表现形式为:一、回归模型的一般形式变量间的关系经济变量之间的关系,大体可分为两类:(2.1)(2)统计关系或相关关系:变量之间为非确定性依赖关系。
其一般表现形式为:(2.2)例如:函数关系:圆面积S =统计依赖关系/统计相关关系:若x和y之间确有因果关系,则称(2.2)为总体回归模型,x(一个或几个)为自变量(或解释变量或外生变量),y为因变量(或被解释变量或内生变量),u为随机项,是没有包含在模型中的自变量和其他一些随机因素对y的总影响。
一般说来,随机项来自以下几个方面:1、变量的省略。
由于人们认识的局限不能穷尽所有的影响因素或由于受时间、费用、数据质量等制约而没有引入模型之中的对被解释变量有一定影响的自变量。
2、统计误差。
数据搜集中由于计量、计算、记录等导致的登记误差;或由样本信息推断总体信息时产生的代表性误差。
3、模型的设定误差。
如在模型构造时,非线性关系用线性模型描述了;复杂关系用简单模型描述了;此非线性关系用彼非线性模型描述了等等。
4、随机误差。
被解释变量还受一些不可控制的众多的、细小的偶然因素的影响。
若相互依赖的变量间没有因果关系,则称其有相关关系。
对变量间统计关系的分析主要是通过相关分析、方差分析或回归分析(regression analysis)来完成的。
他们各有特点、职责和分析范围。
相关分析和方差分析本身虽然可以独立的进行某些方面的数量分析,但在大多数情况下,则是和回归分析结合在一起,进行综合分析,作为回归分析方法的补充。
回归分析(regression analysis)是研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。
第二章 一元线性回归模型
![第二章 一元线性回归模型](https://img.taocdn.com/s3/m/e832c5ffba0d4a7302763ae0.png)
__
__
2
/n
★样本相关系数r是总体相关系数 的一致估计
相关系数有以下特点:
• • • • 相关系数的取值在-1与1之间。 (2)当r=0时,线性无关。 (3)若r>0 ,正相关,若r<0 ,负相关。 (4)当0<|r|<1时,存在一定的线性相关 关系, 越接近于1,相关程度越高。 • (5)当|r|=1时,表明x与y完全线性相关 (线性函数),若r=1,称x与y完全正相关; 若r=-1,称x与y完全负相关。 • 多个变量之间的线性相关程度,可用复相 关系数和偏相关系数去度量。
●假定解释变量X在重复抽样中取固定值。 但与扰动项u是不相关的。(从变量X角度看是外生的)
注意: 解释变量非随机在自然科学的实验研究中相对
Yi 1 2 X i ui
●假定解释变量X是非随机的,或者虽然X是随机的,
容易满足,经济领域中变量的观测是被动不可控的, X非随机的假定并不一定都满足。
E( y xi ) 0 1xi
11
• 可以看出,虽然每个家庭的消费支出存在差 异,但平均来说,家庭消费支出是随家庭可 支配收入的递增而递增的。当x取各种值时, y的条件均值的轨迹接近一条直线,该直线称 为y对x的回归直线。(回归曲线)。 • 把y的条件均值表示为x的某种函数,可写 为:
E( y xi ) 0 1xi
Var ( y xi ) 2
Cov( yi , y j ) 0
y | xi ~ N (0 1xi , )
2
22
第三节 参数估计
• 一、样本回归方程
• 对于
yi 0 1 xi ui
• 在满足古典假定下,两边求条件均值,得到总体 回归函数:
第2章一元线性回归模型
![第2章一元线性回归模型](https://img.taocdn.com/s3/m/f9fb5008bcd126fff7050b9b.png)
布图上的点接近于一条曲线时,称为非线性相关。简单相关按
符号又可分为 正相关 (见图2.3.4 )、负相关 (见图2.3.8 )和零 相关 (见图2.3.6 )。两个变量趋于在同一个方向变化时,即同
增或同减,称为变量之间存在正相关;当两个变量趋于在相反
方向变化时,即当一个变量增加,另一个变量减少时,称为变 量之间存在负相关;当两个变量的变化相互没有关系时,称为
4、普通最小二乘法
为什么要使用OLS? (1)OLS的应用相对简便; (2)以最小化残差平方和为目标在理论很合理; (3)OLS估计量有很多有用的性质。 1)估计的回归线通过Y和X的均值。下列等式总是
ˆ ˆX 严格成立的:设下,可以证明,OLS是 “最优”的估计方法。
2.2.2 最小二乘估计量的性质
一个用于考察总体的估计量,可从如下几个方面考察其
优劣性: (1)线性。即它是否是另一个随机变量的线性函数;
(2)无偏性。即它的均值或期望是否等于总体的真实值;
(3)有效性。即它是否在所有的线性无偏估计量中具有 最小方差; (4)渐近无偏性。 即样本容量趋于无穷大时,它的均值 序列趋于总体的真值; (5)一致性。即样本容量趋于无穷大时,它是否依概率 收敛于总体的真值;
1.总变差的分解
ˆ b ˆX ˆ b Yt的估计值位于估计的回归线 Y t 0 1 t 上,Y围绕其均值的变异 (Y Y )可被分解为两部分:
ˆ Y ) (1) (Y t
ˆ) (2) (Yt Y t
样本回归函数:
3.相关系数检验
(1)变量相关的定义和分类
相关:指两个或两个以上变量间相互关系的程度或强度。
2 2 ˆ e ( Y Y ) i i OLS 最小化 i i 1 i 1
计量经济学【一元线性回归模型——参数估计】
![计量经济学【一元线性回归模型——参数估计】](https://img.taocdn.com/s3/m/80148837d15abe23492f4d86.png)
ˆ0计量ˆ1 和
可以分别表示为被解释变量观测Y值i
的线
性组合(线性函数);
ˆ证1 明
如( X下i : X )(Yi (Xi X )2
Y
)
(Xi X) (Xi X )2
(Yi
Y
)
ki (Yi Y )
其中ki :
(Xi X) (Xi X )2
ki
对ki于引0 进的 ki (X容i 易X证) 明有k如i X下i 的1 特性k:i2
2
,
,
,
,
,
,
,
,
i
1,
2,
n
假设3:随机误差项在不同样本点之间是独立的,不
存
Cov(i , j ) 0,,,,,,,i j,,,,i, j 1, 2, n
在序列相关,即:
一、一元线性回归模型的基本假设
假设 4:随机误差项与解释变量之间不相关, 即:
Cov( Xi , i ) 0,,,,,,,,,,,i 1, 2, n
:待估
E(Y
总样体本回回归归函函数数形形式式::Yˆi
| Xi)
ˆ0
0 ˆ1X i
1X i
其 计
中 估
方
ˆ0 , ˆ1 法ˆ0,, ˆ1求
是ˆ00,,ˆ11 出
的估计值,我们需要找到一种参数 , 并0 ,且1 这 种 参 数 估 计 方 法 保 证 了 估
计值 数
与总体真值
尽可能地接近;这种参
i
根据微 小,
积
分中
ˆ0 , ˆ1
求
极
值
的
原
理
,
要
使 i
ei2
待定系数
第2章 最小二乘法和线性回归模型(更新至0510)
![第2章 最小二乘法和线性回归模型(更新至0510)](https://img.taocdn.com/s3/m/d7f26ddc6f1aff00bed51ee2.png)
思不得其解,同时又发现某人种的平均身高是相 当稳定的。 最后得到结论:儿子们的身高回复于全体男子的 平均身高,即“回归”——见1889年F.Gallton 的论文《普用回归定律》。 后人将此种方法普遍用于寻找变量之间的规律。
16
3. 回归分析
回归分析(regression):通过一个或几个变量的变化去解释另一
160000 140000 120000 100000 80000 60000 40000 20000 0 90 91 92 93 94 95 96 97 98 99 00 01 02 03 04 X Y
图2.1
图2.2
10
2.1.2 散点相关图分析
点击主窗口Quick\Graph\Scatter, 在弹出的Series List窗口输入序列名x和y(如图 2.3),点击ok,即可得到图18的X(GDP)和Y(总消费)之间 的散点图。 注意:(1)和(2)中,作散点图时输入的第一个变量为横轴变量,一般取为解释 变量;第二个变量为纵轴变量,一般取为被解释变量,每次只能显示两个变量之间的 相关图,若模型中含有多个解释变量,可以逐个进行分析。
高斯—马尔可夫定理(Gauss-Markov theorem) 在给定经典线性回归的假定下,最小二乘估计量是 具有最小方差的线性无偏估计量。
33
34
最小二乘估计量的性质——证明
ˆ 2、无偏性,即估计量 0 、ˆ1 的均值(期望)等于总体回归
参数真值 0 与 1
证:
易知 故
ˆ 1 k i Yi k i ( 0 1 X i i ) 0 k i 1 k i X i k i i
80000 70000 60000 50000
第二节一元线性回归分析
![第二节一元线性回归分析](https://img.taocdn.com/s3/m/52371755b0717fd5370cdcb8.png)
第二节一元线性回归分析本节主要内容:回归是分析变量之间关系类型的方法,按照变量之间的关系,回归分析分为:线性回归分析和非线性回归分析。
本节研究的是线性回归,即如何通过统计模型反映两个变量之间的线性依存关系.回归分析的主要内容:1.从样本数据出发,确定变量之间的数学关系式;2.估计回归模型参数;3.对确定的关系式进行各种统计检验,并从影响某一特定变量的诸多变量中找出影响显著的变量。
一、一元线性回归模型:一元线性模型是指两个变量x、y之间的直线因果关系。
理论回归模型:理论回归模型中的参数是未知的,但是在观察中我们通常用样本观察值估计参数值,通常用分别表示的估计值,即称回归估计模型:回归估计模型:二、模型参数估计:用最小二乘法估计:【例3】实测某地四周岁至十一岁女孩的七个年龄组的平均身高(单位:厘米)如下表所示某地女孩身高的实测数据建立身高与年龄的线性回归方程。
根据上面公式求出b0=80。
84,b1=4。
68。
三.回归系数的含义(2)回归方程中的两个回归系数,其中b0为回归直线的启动值,在相关图上变现为x=0时,纵轴上的一个点,称为y截距;b1是回归直线的斜率,它是自变量(x)每变动一个单位量时,因变量(y)的平均变化量。
(3)回归系数b1的取值有正负号。
如果b1为正值,则表示两个变量为正相关关系,如果b1为负值,则表示两个变量为负相关关系。
[例题·判断题]回归系数b的符号与相关系数r的符号,可以相同也可以不同.( )答案:错误解析:回归系数b的符号与相关系数r的符号是相同的=a+bx,b<0,则x与y之间的相关系数( )[例题·判断题]在回归直线yca。
r=0 b.r=1 c。
0<r〈1 d.—1<r〈0答案:d解析:b〈0,则x与y之间的相关系数为负即—1〈r〈0[例题·单选题]回归系数和相关系数的符号是一致的,其符号均可用来判断现象( )a。
线性相关还是非线性相关 b.正相关还是负相关c。
一元线性回归模型的统计检验概述(doc 8页)
![一元线性回归模型的统计检验概述(doc 8页)](https://img.taocdn.com/s3/m/5450a14b5f0e7cd18425369b.png)
一元线性回归模型的统计检验概述(doc 8页)§2.3 一元线性回归模型的统计检验回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。
尽管从统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。
那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。
主要包括拟合优度检验、变量的显著性检验及参数的区间估计。
一、拟合优度检验拟合优度检验,顾名思义,是检验模型对样本观测值的拟合程度。
检验的方法,是构造一个可以表征拟合程度的指标,在这里称为统计量,统计量是样本的函数。
从检验对象中计算出该统计量的数值,然后与某一标准进行比较,得出检验结论。
有人也许会问,采用普通最小二乘估计方法,已经保证了模型最好地拟合了样本观测值,为什么还要检验拟合程度?问题在于,在一个特定的条件下做得最好的并不一定就是高质量的。
普通最小二乘法所保证的最好拟合,是同一个问题内部的比较,拟合优度检验结果所表示优劣是不同问题之间的比较。
例如图2.3.1和图2.3.2中的直线方程都是由散点表示的样本观测值的最小二乘估计结果,对于每个问题它们都满足残差的平方和最小,但是二者对样本观测值的拟合程度显然是不同的。
....... . .. .图2.3.1 图2.3.21、总离差平方和的分解已知由一组样本观测值),(ii Y X ,i =1,2…,n 得到如下样本回归直线i i X Y 10ˆˆˆββ+=而Y 的第i 个观测值与样本均值的离差)(Y Y y i i -=可分解为两部分之和:ii i i i i i y e Y Y Y Y Y Y y ˆ)ˆ()ˆ(+=-+-=-= (2.3.1)图2.3.3示出了这种分解,其中,)ˆ(ˆY Y y ii -=是样本回归直线理论值(回归拟合值)与观测值i Y 的平均值之差,可认为是由回归直线解释的部分;)ˆ(i i i Y Y e -=是实际观测值与回归拟合值之差,是回归直线不能解释的部分。
第02章-一元线性回归模型
![第02章-一元线性回归模型](https://img.taocdn.com/s3/m/c6bfd7848762caaedd33d43f.png)
四、拟合优度的度量
• 基本概念:
拟合优度衡量的是样本回归线对样本观测值的拟合程度。 样本观测值距回归线越近,拟合优度越高,x对y的解释程 度越强。
• 样本观测值、拟合值、样本均值之间的关系
ˆ ˆ ( yt − y ) = ( yt − yt ) + ( yt − y )
?相关分析适用于无明确因果关系的变量之间的关系判断常使用的工具是相关系数相关系数对称的看待两个变量相关系数仅判断变量间是否存在线性相关相关系数判断的是统计依赖关系?如果两个变量之间存在因果关系则需要建立回归模型采用回归分析的方法判断变量之间的因果性效应一元线性回归模型的建立?在回归模型中往往假定解释变量是因被解释变量是果而分析的目标则是确定解释变量对被解释变量的因果性效应的具体数值
5. 一元线性回归模型的假定条件 • 用样本估计总体回归函数,总会存在偏差 (样本不是总体,而且模型存在随机干扰 项),为了保证估计结果具有良好的性质, 通常要对模型中的变量、模型形式以及随 机误差项提出一些假定条件 • 对模型形式和变量的假定
–假定解释变量x是非随机的,或者虽然是随机 的,但与随机误差项u不相关 –假定变量和模型无设定误差
第2章 一元线性回归模型
一、模型的建立及其假定条件 二、普通最小二乘估计(OLS) 三、OLS估计量的统计性质 四、拟合优度的度量 五、回归参数的显著性检验与置信区间 六、一元线性回归模型的预测
一、模型的建立及其假定条件
1. 经济变量之间的关系 • 计量经济分析研究经济变量之间的关系及 其变化规律。 • 两变量之间可能存在的关系:
ˆ ˆ ˆ yt = β 0 + β1 xt
• 样本回归函数(SRF)表示在图形中即为样本回归线 • 需要注意:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 对于给定样本,总离差平方和TSS不变;如果 样本回归线离实际观测点越近,则回归平方和 ESS在总离差平方和TSS中所占的比重越大。
• 因此,可以定义
拟合优度:回归平方和ESS/总离差平方和TSS
2、可决系数R2统计量
记 R
2
ESS TSS
1
RSS TSS
ˆ2 yi yi
2
1
• 那么,在一次抽样中,参数的估计值与 真值的差异有多大?差异是否显著?
–这就需要进一步进行统计检验。
• 一元线性回归的统计检验主要包括:
–拟合优度检验; –变量的显著性检验; –此外, 教材的这一节还包括回归参数的置 信区间。
一、拟合优度检验( Testing the Simulation Level
例2.2.1(P34-35)的Eviews软件运行结果:
Dependent Variable: Y Method: Least Squares Date: 09/25/07 Time: 22:13 Sample: 1901 1910 Included observations: 10 Variable Coefficient C -103.1717 X 0.777010 R-squared 0.976641 Adjusted R-squared 0.973722 S.E. of regression 115.7670 Sum squared resid 107216.0 Log likelihood -60.58946 Durbin-Watson stat 3.120320
ˆ ˆ Yˆi 0 1 X
i
ˆ y i Y i Y ( Y i Yˆi ) ( Yˆi Y ) e i y i
ˆ y i Y i Y ( Y i Yˆi ) ( Yˆi Y ) e i y i
其中:
极端情形:如果 Yi=Ŷi ,即实际观测值落在样本回 归“线”上,则拟合最好。这时可以认为,“离差” 全部来自回归线,而与“残差”无关。
• 换句话说,一个几乎不可能发生的小概率事
件(“检验统计量的样本值落入拒绝域”)
在一次试验中就发生了,这违背了小概率事
件原理,也就意味着导致了一个不合理的结
果。
显著性检验的步骤: (★)
(1)提出原假设H0和备择假设H1; (2)计算检验统计量的样本值; (3)确定临界值和拒绝域; (4)下结论。
假设检验的基本思想是概率性质的反证法。也就是说, 为了检验原假设H0是否正确,先假定这个假设是正确 的,看由此能推出什么结果。如果导致一个不合理的 结果,则表明“假设H0为正确”是错误的,即原假设 H0不正确,因此要拒绝原假设H0。如果没有导致一个 不合理现象的出现,则不能认为原假设H0不正确,因 此不能拒绝原假设H0 。
对于所有样本点,则需考虑这些点与样本均值离差 的平方和:
记
TSS
y
2 i
(Y
i
Y )
2
总体平方和(Total Sum of Squares) 回归平方和(Explained Sum of Squares) 残差平方和(Residual Sum of Squares )
ESS
ˆ2 yi
Prob. 0.3251 0.0000 1567.400 714.1444 12.51789 12.57841 334.4876 0.000000
二、变量的显著性检验
• 回归分析是要判断解释变量X是否是被解释变 量Y的一个显著的影响因素。
• 在一元线性回归模型中,就是要判断X对Y是否 具有显著的线性影响。
Std. Error t-Statistic 98.40598 -1.048429 0.042485 18.28900 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)
Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)
那么,如何构造表征拟合程度的统计量R2 ?这与下面的 一组概念有关。
1、总离差平方和、回归平方和及残差平方和(教材P40) 假定由一组样本观测值(Xi,Yi),i=1,2…,n,已经 得到如下样本回归直线
ˆ 1 1 t
2
/
xi
2
~ t (n 2)
e
2
2 i
(n 2)
化简,得
t
ˆ1 1
e
x
2 i
ˆ1 1 ˆ
2
2 i
n2
x
2 i
ˆ1 1
S ˆ
1
~ t (n 2)
该统计量即为用于变量X的显著性检验的 t 统计量。
变量显著性检验的步骤: (★)
–这就需要进行变量的显著性检验。或者说,需要 对回归参数1的真值是否为零进行显著性检验。
• 变量的显著性检验所应用的方法是数理统计学 中的假设检验。
1.关于假设检验(教材P43)
• 所谓假设检验,就是事先对总体参数或总体分布形式
作出一个假设(原假设),然后利用样本信息来判断
原假设是否合理,即判断样本信息与原假设是否显著 地有差异,从而决定是否拒绝原假设。 • 假设检验的程序:先根据实际问题的要求提出一个 论断,称为统计假设,记为H0 ;然后根据样本的有 关信息,对H0的真伪进行判断,作出拒绝H0或接受 H0的决策。
(1)对总体参数提出假设: H0: 1=0,
ˆ1 1
(见教材P40)
)
• 拟合优度检验:对样本回归直线与样本观测值之间 拟合程度的检验。 • 度量拟合优度的指标:判定系数(可决系数)R2 • 问题:采用普通最小二乘法,已经保证了模型最好地 拟合了样本观测值,为什么还要检验拟合程度? • 答案:普通最小二乘法所保证的最好拟合,是同一 个问题内部的比较;而拟合优度检验结果所表示的 优劣是不同问题之间的比较。 • 我们来看两个例子。
• 残差平方和RSS(Residual Sum of Squares):反 映被解释变量样本观测值与估计值偏离的大小, 也是模型中解释变量未解释的那部分离差的大 小。
可以证明(根据正规方程组):
也即
TSS = ESS + RSS
结论:被解释变量Y的观测值围绕其均值的总 离差(total variation)可以分解为两部分: 一部分来自回归线(ESS),另一部分则来自随 机因素(RSS)。
概率性质的反证法的根据是小概率事件原理。该原理认
为“小概率事件在一次试验中几乎是不可能发生的”。
具 体 思 路 是 这 样 : 在 原 假 设 H0 下 构 造 一 个 事 件 ( 该 事 件 就 是 拒 绝 域 ) 这 个 事 件 在 “ 原 假 设 H0 正 确 ” 的 条 件 下 是 一 个 ,
y
ei
2
2 i
称 R2 为可决系数(coefficient of determination)或 判定系数。 可决系数R2的取值范围:[0,1] R2越接近1,说明实际观测点离样本回归线越 近,拟合优度越高。
ˆ 在实际计算可决系数时,在1 已经估计出后:
2
R
ˆ2 yi yi
2
ˆ 1
§2.3
一元线性回归模型 的统计检验
一、拟合优度检验
二、变量的显著性检验
三、参数的置信区间
说 明
• 一元线性回归模型是最简单的回归分析模型。
–回归分析就是要根据样本数据对总体回归模型的 参数进行估计,或者说是用样本回归线近似代替 总体回归线。
• 尽管从参数估计量的统计性质我们已经知道, 如果进行多次抽样,那么参数估计量的期望值 (均值)就等于总体参数的真值,但是依据一 次抽样所得到的参数估计值不一定等于该参数 的真值。
2 (Yˆi Y )
RSS
ei
2
2 (Y i Yˆi )
• 总离差平方和TSS(Total Sum of Squares):反 映被解释变量样本观测值总体离差的大小; • 回归平方和ESS(Explained Sum of Squares): 反映由模型中解释变量所解释的那部分离差的 大小;
y
2
xi
2 i
2
在例2.2.1(P34-35)的可支配收入-消费支出例子中,
R
2
ˆ 1
y
2
xi
2 i
2
( . 777 ) 7425000
2
0 . 9766
4590020
结果表明,在Y的总变差中,有97.66 %可以由X做出解释。换 句话说,可支配收入可以解释消费支出总变差的97.66%。回归 方程对样本观测值的拟合效果好。
例:
25 30
20
25
20 15
Y1
Y2
15
10 10 5
5
0 0 2 4 6 X 8 10 12
0 0 2 4 6 X 8 10 12
关于左图:
Dependent Variable: Y1 Method: Least Squares Date: 03/04/03 Sample: 1 10 Included observations: 10 Variable C X R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat Coefficient 2.733333 2.048485 0.977949 0.975193 0.987804 7.806061 -12.95096 3.449139 Std. Error 0.674799 0.108754 t-Statistic 4.050590 18.83600 Prob. 0.0037 0.0000 14.00000 6.271629 2.990192 3.050709 354.7950 0.000000 Time: 02:30