第2章 简单回归模型
学习笔记:伍德里奇《计量经济学》第五版-第二章 简单回归模型
~除了x 以外影响y 的因素?~y 和x 的函数关系?~何以确定在其他条件不变的情况下刻画了y 和x 的关系由以上得简单线性模型(simple linear regression model ):y = b0+ b1x + u (2.1)y :因变量x :自变量u :误差项(干扰项),即“观测不到的”因素(该模型没有限制x 和u 的关系,因此不能说明x 对y 的影响2.4节是如何解决x 的初始值不同时,同样变化量对y 的影响的?E(u) = 0 (2.5)(代价:方程中要包含截距b0 因为这样可以通过微调截距项来使第一个假定一定成立对u 做的第一个假定:E(u|x) = E(u)(2.6)(前提:u 和x 是随机变量均值独立假定(任何给定x 下u 的平均值都一样):E(u|x)= 0 (2.7)结合均值独立与均值为0,得零条件期望假定:E(y|x) = b0 + b1x (2.8)(E(y|x)称为总体回归函数(population regression function ,PRF ),说明了y 的均值是如何随着x 的变动而变动的结合方程(2.1)和假定(2.7)得条件均值函数:一、y 和x关系的起点随机变量:具有数值特征并由一个实验决定其结果的变量•(是为了解决协方差受度量单位影响的问题,是协方差的改进)(u 和x 不相关,u 也能和x ²相关,对于大部分回归不行)相关系数(仅衡量线性相关程度):•yi = b0 + b1xi + ui (2.9)抽取一个容量为n 的随机样本E(u)=0 (2.10)利用Cov(x,u)=E(xu)=0 (2.11)和假定(2.6)得:E(y –b0 –b1x) = 0 (2.12)E[x(y –b0 –b1x)] = 0 (2.13)因此方程(2.10)和(2.11)可写为在样本中就对应和(2.14)(2.15)结合(2.9)的均值形式(2.16)可以解出参变量(实际上就是矩法估计)( )(前提:分母大于0,即样本中所有x 不完全相等(含义:若样本中x 和y 正相关,则斜率系数为正二、普通最小二乘法(如何估计参变量)协方差:•不相关和协方差=0可互推,但不一定独立,独立一定不相关•矩法估计:利用要估计的参数与某种均值的关系,用样本矩 代替总体矩u 的解法。
庞浩 计量经济学2第二章 简单线性回归模型
三、总体回归函数
总体回归函数(population regression function,简称PRF): 将总体被解释变量Y的条件均值表现为解释 变量X的函数。
E (Y | X i ) f ( X i )
当总体回归函数是线性形式时,
总体回归函数的条件 期望表示方式
E (Y | X i ) f ( X i ) 1 2 X i
22
四、随机扰动项u
(一)定义 各个被解释变量的个别值与相应的条件均值的 偏差,被称为随机扰动项,或随机干扰项 (stochastic disturbance),或随机误差项 (stochastic error), 用u表示。它可正可 负,是一个随机变量。
ui Yi E (Y | X i ) Yi E (Y | X i ) ui Yi 1 2 X i ui
消费 支出 Y
932
1259 1448 1651 2298 2289 2365 2488 2856 3150
25
Y
SRF1 SRF2
X
26
样本一
Y vs. X 3500 3000 2500 2000 1500 1000 500 0 1000 2000 3000 4000 5000 6000 X 3500 3000 2500 2000 1500 1000 500 0
4
(二)相关关系的种类
⒈按涉及变量的多少分为 单相关 多重(复)相关
相 关 关 系 的 种 类
⒉按表现形式的不同分为
线性相关
非线性相关 正相关 负相关 完全相关
⒊单相关时,按相关关系的方 向不同分为
4.按相关程度的不同分为
Hale Waihona Puke 不完全相关 不相关5
第二讲 简单回归模型
n
( x 2 xi x x ) xi2 2 x xi nx 2 xi2 2nx 2 nx 2 xi2 nx 2 xi ( xi x )
i 1 i 1 n i 1 n i 1 n i 1 i 1 n 2 i 2 n
ˆ ˆ X e Yi 1 2 i i
Yi 1 2 X i ui
ˆ 和 ˆ 的数值,显然: 如果能够通过某种方式获得 1 2 ˆ 和 ˆ 是对总体回归函数参数 1 和 的估计 ● 1 2 2
ˆ i是对总体条件期望 E (Yi X i ) 的估计 ● Y
● ei 在概念上类似总体回归函数中的 为对 ui 的估计。
i 1 n i 1 2 ˆ xi x yi y 1 xi x i 1 i 1 n
n
计量经济学导论
29
( x x )( y y )
i 1 i i
n
2 ( x x ) i i 1
n
( xi yi xi y xyi xy ) ( xi yi xi y ) xi ( yi y ) yi ( xi x )
dependentvariable因变量lefthandsidevariableexplainedvariable被解释变量regressand回归子17计量经济学导论刘愿我们一般称x为independentvariable自变量righthandsidevariableexplanatoryvariable解释变量controlvariables控制变量18计量经济学导论刘愿简单回归的术语因变量自变量被解释变量解释变量响应变量控制变量被预测变量预测变量回归子回归元19计量经济学导论刘愿simpleassumption一个简单的假设变量u称为errorterm误差项或者disturbance扰动项代表除了x之外影响y的其它因素
庞浩计量经济学第二章简单线性回归模型
最小二乘法的应用
在统计学和计量经济学中,最 小二乘法广泛应用于估计线性 回归模型,以探索解释变量与 被解释变量之间的关系。
通过最小二乘法,可以估计出 解释变量的系数,从而了解各 解释变量对被解释变量的影响 程度。
最小二乘法还可以用于时间序 列分析、预测和数据拟合等场 景。
最小二乘法的局限性
最小二乘法假设误差项是独立同分布 的,且服从正态分布,这在实际应用 中可能不成立。
最小二乘法无法处理多重共线性问题, 当解释变量之间存在高度相关关系时, 最小二乘法的估计结果可能不准确。
最小二乘法对异常值比较敏感,异常 值的存在可能导致参数估计的不稳定。
04
模型的评估与选择
R-squared
总结词
衡量模型拟合优度的指标
详细描述
R-squared,也称为确定系数,用于衡量模型对数据的拟合程度。它的值在0到1之间,越接近1表示模型拟合越 好。R-squared的计算公式为(SSreg/SStot)=(y-ybar)2 / (y-ybar)2 + (y-ybar)2,其中SSreg是回归平方和, SStot是总平方和,y是因变量,ybar是因变量的均值。
数据来源
本案例的数据来源于某大型电商 平台的销售数据,包括商品的销 售量、价格、评价等。
数据处理
对原始数据进行清洗和预处理, 包括处理缺失值、异常值和重复 值,对分类变量进行编码,对连 续变量进行必要的缩放和转换。
模型建立与评估
模型建立
基于处理后的数据,使用简单线性回 归模型进行建模,以商品销售量作为 因变量,价格和评价作为自变量。
线性回归模型是一种数学模型, 用于描述因变量与一个或多个 自变量之间的线性关系。它通 常表示为:Y = β0 + β1X1 + β2X2 + ... + ε
第2讲 简单回归模型
SST = SSE = SSR =
∑
n
n
i =1
(Y i − Y ) 2 (Y i − Y ) 2
∧ 2 i ∧
∑
n i =1
i=1
7
总体回归函数
o 总体回归函数(population regression function, PRF) 总体回归函数( )
在零条件均值假定下, 在零条件均值假定下, E (Y | X ) = E [( β 0 + β 1 X + u ) | X ] = β 0 + β 1 X
β 0 + β 1 X表示 X取某一确定值时 Y的均值,称为系统性成 分; 的均值,
ˆ ˆ ˆ 定义Yi = β 0 + β 1 X i 为X = X i 时Y的拟合值 ˆ ˆ ˆ ˆ 定义u = Y − Y = Y − β − β X 为X = X 时的残差
i i i i 0 1 i i
ˆ ˆ ˆ 定义Y = β 0 + β 1 X为总体回归函数 E (Y | X ) = β 0 + β 1 X 的样本回归函数 ˆ ∆Y ˆ ˆ ,表示 X变化一个单位时 Y的变化量 β1 = ∆X ˆ ˆ β 表示X = 0时Y的值
第二讲 简单回归模型
Simple Regression Model
一、基本概念 二、普通最小二乘法(OLS) 普通最小二乘法( ) 三、几个问题 四、OLS估计量的性质 估计量的性质
一、基本概念
1. 回归的涵义 2. 一个基本假定 3. 总体回归函数
回归的涵义
o 最初的涵义:回归(regress)一词最早由英国生理学家高 最初的涵义:回归( ) 尔顿( 尔顿(Galton)提出,用以指给定父母的身高后,儿女的 )提出,用以指给定父母的身高后, 身高有回复到人口总体平均身高的趋势, 身高有回复到人口总体平均身高的趋势,即“回归到中等 ”(regression to mediocrity) ) o 回归分析:在其他条件不变的情况下,考察一个变量对另 回归分析:在其他条件不变的情况下, 一个变量的影响。 一个变量的影响。
第二章 简单线性回归模型
Y 的条件均值
E (Y X i )
55
75
95
115
135
155
175
195
215
235
之间的对应关系是: 家庭可支配收入 X 与平均消费支出 E ( Y X i ) 之间的对应关系是:
E ( Y X i ) = 15 + 2 X 3
i
的条件期望表示为解释变量的某种函数称为总体函数。 这种把总体应变量 Y 的条件期望表示为解释变量的某种函数称为总体函数。简记 PRF。 为 PRF。
(三)回归与相关的联系与区别
两者的区别在于: 用途不同—— ——相关分析是用相关系数去度量变量之间线性 (1)用途不同——相关分析是用相关系数去度量变量之间线性 关联的程度,而回归分析却要根据解释变量的确定值, 关联的程度,而回归分析却要根据解释变量的确定值,去估计和预测 被解释变量的平均值; 被解释变量的平均值; 变量性质不同—— ——相关分析中把相互联系的变量都作为随 (2)变量性质不同——相关分析中把相互联系的变量都作为随 机变量, 机变量, 而在回归分析中, 而在回归分析中, 假定解释变量在重复抽样中具有固定数值, 假定解释变量在重复抽样中具有固定数值, 是非随机的,被解释变量才是随机变量。 是非随机的,被解释变量才是随机变量。 对变量的因果关系处理不同—— ——回归分析是在变量因果关 (3)对变量的因果关系处理不同——回归分析是在变量因果关 系确定的基础上研究解释变量对被解释变量的具体影响,对变量的处 系确定的基础上研究解释变量对被解释变量的具体影响, 理是不对称的, 而在相关分析中, 把相互联系的变量都作为随机变量, 理是不对称的, 而在相关分析中, 把相互联系的变量都作为随机变量, 是对称的。 是对称的。
第二章-简单线性回归模型
1600 X
2000
2400
非线性相关:
Y
80 70 60 50 40 30 20 10
0 0
400
800
X
1200
非线性相关:
Y
80 70 60 50 40 30 20 10
0 0
400
800
X
1200
非线性相关的模拟数据:
•• • • • • • • •• • •
正相关:两个量变化的方向相同
二、总体回归模型
假设 X 为一个经济变量,Y 为另一个经 济变量,且变量 X 与 Y 之间存在着非确定 性的因果关系,即当 X 变化时会引起 Y 的 变化,但这种变化是随机的。例如,某种 饮料的销售量与气温的关系,销售量受气 温的影响而变化,但其变化又不能由气温 惟一确定;再比如,家庭的周消费额与周 收入之间的关系等等。
-800
-1200
-1600
0
4
8
12
16
X
高度正相关:
YY
1600
1200
r 0.99965
800
400
0
0
4
8
12
16
X
高度负相关:
Z
0
-400
r 0.99965
-800
-1200
-1600
0
4
8
12
16
X
(三)回归分析
“回归(Regression)”一词最 早出现在生物学的遗传现象研究中, 用来指子辈身高相对于父辈身高趋向 其平均水平的倾向。现在这一术语广 泛地用来指随机因果关系中变量之间 的统计规律。回归分析方法是计量经 济学的基础。
第2章 简单回归模型
将总体矩条件应用于样本 • 从总体中随机抽取一个样本容量为n的随机 样本,用{(xi,yi): i=1, „,n} ,i表示单 个样本(observation)的编号,n是样本总 量。xi,yi表示第i个样本的相应的变量。 • 每一观测样本i均应满足: yi = b0 + b1xi + ui • 将前面所假定的总体矩条件(3)(4)应用于样 本中,这种方法称为矩估计法(method of moments).
一个重要问题
如果我们忽略包含于误差项u中的其他因素,能否 通过简单回归模型,得到x对于y的其他因素不变 情况下的影响(ceteris paribus effect of x on y)呢? 不能。 需要对u和x的关系作出假定,或者是说,假定x与 y的关系符合一定的条件,才能通过上述模型估计 x对于y的其他因素不变情况下的影响(ceteris paribus effect of x on y)。
选择参数值b0, b1, 使得样本的矩条件成立
• 与总体中的矩条件(3)(4)相对应,在样本中相 应的矩条件(sample counterparts)为:
(3' ) ( 4' ) n
1
y
n i 1 n i 1 i
i
ˆ b ˆ x 0 b 0 1 i
i
n
1
x y
ˆ b ˆ x 0 b 0 1 i
普通最小二乘法的推导
(a ) (b) (c) (d )
x y y bˆ x bˆ x 0
n i 1 n i i 1 1 i
x ( y
i 1 n i
i
ˆ (x x) 0 y) b 1 i
计量经济学ch02
计量经济学导论 刘愿
14
n
xi yi y bˆ1x bˆ1xi 0
i 1
n
n
xi yi y bˆ1 xi xi x
i 1
i 1
n
n
xi xyi y bˆ1 xi x 2
i 1
i 1
计量经济学导论 刘愿
如果u中的其他因素保持不变,则u的变动为零,x对y
存在线性效应,可得2.2,其中b1为斜率参数。
总体中u的均值为零,意味着: E(u) = 0
既然我们可以用b0 将E(u)标准化为零, E(u) = 0 并非
一个限制性条件。
计量经济学导论 刘愿
6
零条件均值假定
u和x的相关性假定至关重要。 相关关系只度量了u和x之间的线性关系,u和x
一般称y为:
Dependent Variable(因变量) Left-Hand Side Variable Explained Variable(被解释变量) Regressand(回归子)
计量经济学导论 刘愿
3
在简单线性回归模型y = b0 + b1x + u中, 我们
一般称x为
n
uˆi 2
yi bˆ0 bˆ1xi 2
i 1
i 1
计量经济学导论 刘愿
22
推导的另一思路(续)
利用微积分优化,我们可得到OLS估计值的一阶条件:
n
yi bˆ0 bˆ1xi 0
i 1
n xi yi bˆ0 bˆ1xi 0
i 1
xi x 2
i 1 n
给定 xi x 2 0 i 1
计量经济学课件:第二章 简单线性回归模型
第二章 简单线性回归模型第一节 回归分析与回归方程一、回归与相关 1、变量之间的关系(1)函数关系:()Y f X =,其中Y 为应变量,X 为自变量。
(2)相关关系或统计关系:当一个变量X 或若干个变量12,,,k X X X 变化时,Y 发生相应的变化(可能是不确定的),反之亦然。
在相关关系中,变量X 与变量Y 均为不确定的,并且它们之间的影响是双向的(双向因果关系)。
(3)单向因果关系:(,)Y f X u =,其中u 为随机变量。
在计量经济模型中,单一线性函数要求变量必须是单向因果关系。
在(单向)因果关系中,变量Y 是不确定的,变量X 是确定的(或可控制的)。
要注意的是,对因果关系的解释不是靠相关关系或统计关系来确定的,并且,相关关系与统计关系也给不出变量之间的具体数学形式,而是要通过其它相关理论来解释,如经济学理论。
例如,我们说消费支出依赖于实际收入是引用了消费理论的观点。
2、相关关系的类型 (1) 简单相关 (2) 复相关或多重相关 (3) 线性相关 (4) 非线性相关 (5) 正相关 (6) 负相关 (7) 不相关3、用图形法表示相关的类型上述相关类型可直观地用(EViews 软件)画图形来判断。
例如,美国个人可支配收入与个人消费支出之间的相关关系可由下列图形看出,它们为正相关关系。
15002000250030003500150020002500300035004000PDIP C E其中,PDI 为(美)个人可支配收入,PCE 为个人消费支出。
PDI 和PCE 分别对时间的折线图如下PROFIT 对STOCK 的散点图为05010015020025050100150STOCKP R O F I T其中,STOCK 为(美)公司股票利息,PROFIT 为公司税后利润,表现出明显的非线性特征。
以下是利润与股息分别对时间的序列图(或称趋势图)05010015020025020406080100120140GDP 对M2的散点图为02000040000600008000010000050000100000150000M2G D P其中M2为(中国)广义货币供应量,GDP 为国内生产总值。
2.简单回归模型
= = = = = =
31 466.64 0.0000 0.9415 0.9395 .73285
Std. Err. .0000309 .5203031
[95% Conf. Interval] .0006048 -.309128 .0007313 1.81915
Source Model Residual Total cons1000 inc1000 _cons
SS 250620848 15575066.3 266195914 Coef. 668.0587 755.0115
df 1 29 30
MS 250620848 537071.25 8873197.14 t 21.60 1.45 P>|t| 0.000 0.157
Number of obs F( 1, 29) Prob > F R-squared Adj R-squared Root MSE
SS 250.620856 15.5750652 266.195922 Coef. .6680587 .7550114
df 1 29 30
MS 250.620856 .537071212 8.87319738 t 21.60 1.45 P>|t| 0.000 0.157
Number of obs F( 1, 29) Prob > F R-squared Adj R-squared Root MSE
SS 250.620857 15.575065 266.195922 Coef. .0006681 .7550112
df 1 29 30
MS 250.620857 .537071208 8.87319738 t 21.60 1.45 P>|t| 0.000 0.157
第2章 简单回归模型(2015.3)
E (u ) 0
E (u | x) E (u)
的一个重要含义: 在总体中,u和x不相关。
因此,我们看到,u的期望值为零时,x和u的
协方差也为零:
E (u ) 0
(2.10) (2.11)
cov(x, u ) E ( xu)
事实上
cov(x, u) E ( x E ( x))(u E (u )) E ( xu uE( x)) E ( xu) E (u ) E ( x) E ( xu)
在施肥的例子中,如果施肥量与该地区的其
他条件没有关系,那么式(2.6)就成立。
但是如果更多的肥料被施用在更高质量的土
地上,那么u的平均值就会随着肥料的用量而 改变,式(2.6)也就不成立了。
零条件均值假定
E (u | x) 0
给出 1 的另一
种非常有用的解释。 由 y 0 1 x u
式(2.10)和式(2.11)可以用观测变量x和y以及
未知参数来表示,方程(2.10)和(2.11)可分别 写为
E( y 0 1 x) 0
(2.12) (2.13)
E[ x( y 0 1x)] 0
方程(2.12)和(2.13)意味着对总体中(x,y)的联
关键假定是,u的平均值与x值无关,即
E (u | x) E (u)
(2.6)
方程(2.6)表明,根据x值的不同把总体划分成
若干部分,每个部分中都有无法观测的因素 都具有相同的平均值,而且这个共同的平均 值必然等于总体中u的平均值。
当方程(2.6)成立时,称u的均值独立于x。
第二章 简单线性回归模型
项
u是不相关的
假定解释变量 X 在重复抽样中为固定值
假定变量和模型无设定误差
29
(2)对随机扰动项 u 的假定
又称高斯假定、古典假定
假定1:零均值假定
在给定 X 的条件下 , u
E(ui X i ) 0
i
ui
的条件期望为零
假定2:同方差假定 在给定 X 的条件下, i 的条件方差为某个常数 2 u
●样本回归函数的函数形式应与设定的总体回归 函数的函数形式一致。
●样本回归线还不是总体回归线,至多只是未知 总体回归线的近似表现。
22
样本回归函数的表现形式
样本回归函数如果为线性函数,可表示为
ˆ ˆ ˆ Yi 1 2 X i ˆ 其中: Yi 是与 X i 相对应的 Y 的样本条件均值
3.相关程度的度量—相关系数
总体线性相关系数: Cov( X , Y ) Var( X )Var(Y )
其中: Var( X ) ——X 的方差;Var(Y ) ——Y的方差 Cov( X , Y ) ——X和Y的协方差
样本线性相关系数:
XY
其中: i和 X
( X X )(Y Y ) ( X X ) (Y Y )
12
例:100个家庭构成的总体
1000 820 888 932 960 1500 962 1024 1121 1210 1259 1324 2000 1108 1201 1264 1310 1340 1400 1448 2500 1329 1365 1410 1432 1520 1615 1650 3000 1632 1726 1786 1835 1885 1943 2037 3500 1842 1874 1906 1068 2066 2185 2210
简单回归模型
Q
ˆ0
n
2
i 1
( yi
ˆ0
ˆ1xi )(1)
0
Q
ˆ1
n
2 ( yi ˆ0 ˆ1xi )(xi ) 0
i 1
即
uˆi 0 xiuˆi 0
样本回归函数
➢ 第一种样本
➢ 为研究总体,我们需要抽取一定旳样本。
X 80 100 120 140 160 180 200 220 240 260
➢ 假想案例
假设一种国家只有60户居民,他们旳可支配收 入和消费支出数据如下(单位:美元):
X Y
户数 总支出
80 100
55 65
60 70
65 74
70 80
75 85
- 88
--
5
6
325 462
120
79 84 90 94 98 - - 5 445
140
80 93 95 103 108 113 115 7 707
n1 xi ( yi ˆ0 ˆ1xi ) 0 i 1
当满足条件:
n
(xi - x)2 0
i 1
OLS估计量 :
ˆ1
(xi x)( yi y) (xi x)2
ˆ0 y ˆ1x
ˆ1 实际上就是y和x旳样本协方差与x旳样本方
差之比。
n
(xi - x)2 0的情况:
i 1
Cov( yˆi , uˆi ) 0
➢离差平方和分解
y
yi y = yˆ i y + yi yˆi
yi
yˆi
总离差 = 回归差 + 残差
y
回归差:由样本回归直线解释旳部分
.A
第2讲简单回归模型
x3
x4
x
2.样本回归函数(sample regression function, SRF)
1)样本回归曲线
对于X的一定值,取得Y 的样本观测值,可计算其条件 均 值,样本观测值条件均值的轨迹,称为样本回归线。
2)样本回归函数
如果把被解释变量Y的 样本条件均值表示为解释变 量X的某种函数,这个函数 称为样本回归函数(SRF)。
第二章:简单回归模型
§2.1 简单回归模型的定义
§2.2 普通最小二乘法(OLS)的推导 §2.3 OLS的操作技巧
§2.4 测量单位和函数形式
§2.5 OLS估计量的期望值和方差 §2.6 过原点回归
第一节 简单回归模型的定义
一、回归
1.回归的涵义
最初的涵义:回归(regress)一词最早由英国生理学家高尔顿
Xi
X Y SRF
ˆ Y i
3)样本回归函数的函数形式 条件均值形式:
样本回归函数如果为线性函数,可表示为
ˆ ˆ X ˆ Y i 1 2 i
ˆ是与 X 相对应的 Y 的样本条件均值; Y 其中: i i
ˆ 和 ˆ 分别是样本回归函数的参数。 1 2
个别值(实际值)形式:
3.u与X不相关
在上述假定中,1是比2和3更强的假定,2是比3更强的假定。
对于回归分析,假定2是必须的,但假定1和3更易于理解
四、总体回归函数和样本回归函数
1.总体回归函数(population regression function, PRF)
在 零 条 件 均 值 假 定 下总 ,体 回 归 函 数 为 : E (Y | X ) E[( 0 1 X u) | X ] 0 1 X u表 示Y与 其 条 件 均 值 的 偏 差 称 ,为 非 系 统 性 成 分 。 当X改 变 一 个 单 位 时 , E (Y | X ) [ 0 1 ( X+1)] ( 0 1 X ) 1 因此, 1衡 量 了 X改 变 一 个 单 位 对 Y的 条 件 均 值 的 影 响
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
n
二、普通最小二乘法的推导
另一种方法 定义y在x=xi时的拟合值为
ˆ i ˆ 0 ˆ 1 x i y
(2.17)
ˆ 1
( x i x )( y i y )
n
i 1
( xi x )2
(2.19)
第i次观测的残差为
ˆ ˆx ˆi yi y ˆ i yi u 0 1 i
江西财经大学(彭Leabharlann 宏) 2一、简单回归模型的定义
y = 0 + 1x + u y:因变量;x:自变量
一、简单回归模型的定义
假定
E(u)=0 E(u|x)=E(u) (2.5) (2.6)
(2.1)
0:截距参数;1 :斜率参数
u:误差项 u表示除x之外其他影响y的因素,可以把u看作是“观测 不到”的因素。(解决了问题① ) 1度量了其他因素不变的情况下(Δu=0) ,x对y的线性 影响(Δy=1Δx) 。 (解决了问题②和半个问题③,1 如何确定?)
.} û3
E ( y | x) 0 1 x
• 总体回归函数是固定而又未知的,给定一个样本 就能通过OLS得到一个样本回归函数。 • 例2.3、2.4、2.5
江西财经大学(彭树宏) 13
y1
.} û1
x1
江西财经大学(彭树宏)
x2
x3
x4
x
14
三、OLS的操作技巧
OLS统计量的代数性质
i1
③ 点
( x, y )
总在OLS回归线上(由(2.16)式得)
江西财经大学(彭树宏) 15 江西财经大学(彭树宏) 16
三、OLS的操作技巧
• y的总变异总能表示成解释了的变异和未解释的 变异之和:
yi
四、度量单位和函数形式 改变度量单位对OLS统计量的影响 • 若因变量乘以一个常数c(自变量没有变 化),则OLS截距和斜率的估计值都扩大 为原来的c倍。 • 若自变量乘以一个常数c (因变量没有变 化),则OLS斜率系数将被除以c,而截距 系数则没有变化。
二、普通最小二乘法的推导
• 例子:15个家庭的年收入和年储蓄数据
江西财经大学(彭树宏) 7 江西财经大学(彭树宏) 8
二、普通最小二乘法的推导
零条件均值假定意味着,在总体中,u与x 不相关,即x和u之间的协方差为零。我们 有:
E(u)=0 (2.10) Cov(x,u)=E(xu)-E(x) •E(u)=0 (2.11)
四、度量单位和函数形式
江西财经大学(彭树宏)
19
江西财经大学(彭树宏)
20
四、度量单位和函数形式
“线性”回归的含义:“线性”是指对参数线性 而非对变量线性。 • 线性回归 • 非线性回归
五、OLS估计量的期望值和方差
OLS的无偏性
江西财经大学(彭树宏)
21
江西财经大学(彭树宏)
22
五、OLS估计量的期望值和方差
ˆ / se ˆ1
x
i
x
2
1
2
江西财经大学(彭树宏)
29
5
ˆ 和 ˆ 最小化残差平方和 选择 1 0
ˆ ˆ y u
2 i i i 1 i 1 n n 0
i 1
计算(2.17)和(2.19)仅需的假定是样本中的xi 不完全相等( (2.19) 的分母不为零)。 (2.19)式的分子、分母同除以n-1即为x和y的样 本协方差和x的样本方差。 11 江西财经大学(彭树宏)
4
五、OLS估计量的期望值和方差
• 用y的条件均值和 条件方差表示零 条件均值假定和 同方差假定有:
五、OLS估计量的期望值和方差
• 当假定 SLR.5不满 足时,便称 误差项表现 出异方差 性。(例 2.13)
江西财经大学(彭树宏)
25
江西财经大学(彭树宏)
26
五、OLS估计量的期望值和方差
• 有了同方差假定,便可以证明如下定理:
n n
三、OLS的操作技巧
拟合优度 • 定义总平方和(SST)、解释平方(SSE)和残 差平方和(SSR)为:
① OLS残差和及其样本均值都为零(由(2.14)式得)
0 n 回归元和OLS残差的样本协方差为零(由(2.15)式 n 得)
i i 1
uˆ
uˆ
0,
i 1
i
②
ˆi 0 x iu
• 方法:从总体中抽取一个样本来对总体参数进行 估计
抽取 总体 估计
江西财经大学(彭树宏) 5 江西财经大学(彭树宏) 6
样本
1
二、普通最小二乘法的推导
• 令{(xi,yi): i=1, …,n}表示从总体中抽取的一 个容量为n的随机样本,对每个i都有:
yi = 0 + 1xi + ui (2.9) ui包括除xi之外所有影响yi的因素,它是第i 次观测的误差项。
第2章 简单回归模型
一.简单回归模型的定义 二.普通最小二乘法的推导 三.OLS的操作技巧 四.度量单位和函数形式 五.OLS估计量的期望值和方差 六.过原点回归
江西财经大学(彭树宏) 1
一、简单回归模型的定义
• y和x是两个代表某个总体的变量,研究y如何随x 而变化? • 例:y是大豆产出,x是施肥量;y是小时工资,x 是受教育年数;y是社区的犯罪率,x是警察的数 量。 • 写出用x解释y的模型时面临的问题:①应该如何 考虑其他影响y的因素?②y和x的函数关系是怎 样?③何以确定在其他条件不变的情况下刻画了y 和x之间的关系?
二、普通最小二乘法的推导
• E(y – 0 – 1x) = 0 (2.12) • E[x(y – 0 – 1x)] = 0 (2.13) • (2.12)和(2.13)的样本对应值为:
n
n
1
i1
y
i
ˆ 0 ˆ 1 x
i
0
由总体回归函数y = 0 + 1x + u ,得
五、OLS估计量的期望值和方差
误差方差的估计 • 误差和方差的区别:误差出现在包含总体参数 0 ˆ 和 ˆ 的方程 和 1 的方程中,残差出现在使用 1 0 中;误差无法观测,但残差却可以从数据中计算 出来。 yi 0 1 xi ui
ˆ ˆ x u ˆi yi 0 1 i
五、OLS估计量的期望值和方差
OLS估计量的方差
• 在假定SLR.1~SLR.4下,OLS估计量的方差可以计算 出来。增加假定SLR.5,是因为它简化了估计量方差 的计算,而且它还意味着,普通最小二乘法具有某种 有效性。 • 2 被称为误差方差。
江西财经大学(彭树宏) 23 江西财经大学(彭树宏) 24
17 江西财经大学(彭树宏) 18
• 定义判定系数为: • 数据点都落在同一直线上时,R2=1,OLS提供 了数据的一个完美拟合。一个接近零的R2值表明 OLS给出了一个糟糕的拟合。 ˆ i 的样本相关系数的平方。 • R2等于 yi和 y
江西财经大学(彭树宏)
3
四、度量单位和函数形式
在简单回归中加入非线性因素 • 线性模型(例2.3) • 半弹性模型(例2.10) • 弹性模型(例2.11)
ui 为误差,u ˆi 为残差。
江西财经大学(彭树宏)
27
江西财经大学(彭树宏)
28
五、OLS估计量的期望值和方差
• 2的无偏估计量为:
ˆ2
n 2
1
ˆi2 SSR /n 2 u
ˆ ˆ 2 ,被称为回归标准误。 • ˆ 2 代入方差公式(2.57)和(2.58),我 • 将 ˆ ) 的无偏估计量,进 ˆ ) 和 Var ( 们就能得到 Var ( 1 0 ˆ 的标准差的无偏估计量。 ˆ 和 而得到 0 1
u=y- 0 - 1x
n
n
1
x i y i ˆ 0 ˆ 1 x i 0
i 1
(2.14 ) (2.15 )
代入(2.10)和( 2.11),得 江西财经大学(彭树宏)
ˆ 和 ˆ • 由以上两个方程,可解得 0 1
9 江西财经大学(彭树宏) 10
二、普通最小二乘法的推导
ˆx 1 i
2
由最优化一阶条件可得到式(2.17)和(2.19)给出的 普通最小二乘估计量。
江西财经大学(彭树宏) 12
2
二、普通最小二乘法的推导
• 样本回归函数 y4
三、OLS的操作技巧
拟合值和残差
û4 {
.
ˆ ˆx ˆ y 0 1
ˆ ˆ x ˆ y 0 1
• 总体回归函数 y3 y2 û2 {.
江西财经大学(彭树宏) 3
结合(2.5)和(2.6),得到
E(u|x)=0
(零条件均值假定)
总体回归函数
E(y|x)= 0 + 1x
江西财经大学(彭树宏)
(2.8)
4
一、简单回归模型的定义
二、普通最小二乘法的推导
• 问题:如何估计总体回归方程
y = 0 + 1x + u (2.1)
中的参数0和1?