第三章 双变量线性回归模型

合集下载

ch3 双变量线性回归模型(数学)-1

ch3 双变量线性回归模型(数学)-1
极大似然法的基本原理:用产生该样本概率最大的原则确 定样本回归函数。
在满足基本假设条件下,对一元线性回归模型: Yi 0 1 X i ui
随机抽取n组样本观测值(Xi, Yi)(i=1,2,…n)。
假如模型的参数估计量已经求得,为 那么Yi服从如下的正态分布:
3、总体回归函数(PRF) 回归分析关心的是根据解释变量的已知或给
定值,考察被解释变量的总体均值,即当解 释变量取某个确定值时,与之统计相关的被 解释变量所有可能出现的对应值的平均值。
E (Y | X i ) f ( X i )
例1 一个假想的社区有100户家庭组成,要研究 该社区每月家庭消费支出Y与每月家庭可支配收 入X的关系。 即如果知道了家庭的月收入,能否 预测该社区家庭的平均月消费支出水平。 为达到此目的,将该100户家庭划分为组内 收入差不多的10组,以分析每一收入组的家庭消 费支出。
注意 ①不线性相关并不意味着不相关。 ②有相关关系并不意味着一定有因果关系。 ③相关分析对称地对待任何(两个)变量,两 个变量都被看作是随机的。回归分析对变量 的处理方法存在不对称性,即区分应变量 (被解释变量)和自变量(解释变量):前 者是随机变量,后者不是。
回归分析构成计量经济学的方法论基础,其主要内 容包括: (1)根据样本观察值对经济计量模型参数进行估 计,求得回归方程; (2)对回归方程、参数估计值进行显著性检验; (3)利用回归方程进行分析、评价及预测。
第三章 经典单方程计量经济学模型: 双变量线性回归模型
一、回归分析概述 二、双变量线性回归模型的参数估计 三、最小二乘估计量的性质 四、拟合优度的测度 五、双变量回归中的区间估计和假设检验 六、双变量线性回归模型的应用——预测 小结:本章知识结构图

线性回归模型双变量线性回归模型

线性回归模型双变量线性回归模型

3.相关程度的度量—相关系数
总体线性相关系数:
Cov( X ,Y )
Var( X )Var(Y )
其中:Var(X ) ——X 的方差;Var(Y ) ——Y的方差
Cov( X ,Y ) ——X和Y的协方差
样本线性相关系数:
XY
__
__
( Xi X )(Yi Y )
__
__
( Xi X )2 (Yi Y )2
回归的现代意义: 一个应变量对若干解释变量 依存关系 的研究
回归的目的(实质): 由固定的解释变量去 估计应变量的平均值
注意几个概念
● Y 的条件分布
当解释变量 X 取某固定值时(条件),Y 的值不 确定,Y 的不同取值形成一定的分布,即Y 的条
件分布。
Y
● Y 的条件期望
对于 X的每一个取值, 对 Y 所形成的分布确
2110 2225 2319 2321 2365 2398 2487 2513 2538 2567 2610 2710
2388 2426 2488 2587 2650 2789 2853 2934 3110
1650 1900 2150 2400 2650
5000 2464 2589 2790 2856 2900 3021 3064 3142 3274
均值 E(Y的X偏i )差为 , 显u然i 是随机变u i量,则有
ui Yi E(Yi Xi ) Yi 1 2 Xi
或 Yi 1 2 Xi ui

ui

Xi X
3.如何理解总体回归函数
●实际的经济研究中总体回归函数通常是未知的, 只能根据经济理论和实践经验去设定。“计量” 的目的就是寻求PRF。

第三章 双变量回归模型-估计问题

第三章  双变量回归模型-估计问题
ui2 ∑ˆ
RSS) 则表示残差平方和(residual sum of squares, 则表示残差平方和
• n-2 是被称为自由度 是被称为自由度(degrees of freedom, df)的个数 的个数 •
1-21
的性质: 第四节 OLS的性质:高斯 马尔科夫定理 的性质 高斯-马尔科夫定理
(
)
(
)
(1)
(
)
(
)
(2)
1-8
正规方程(normal equations)及其解 正规方程 及其解
ˆ ˆ ∑ Yi = n β 1 + β 2 ∑ X i ˆ ˆ Y i X i = β 1 ∑ X i + β 2 ∑ X i2 ∑
ˆ = n ∑ X iYi − ∑ X i ∑ Yi = β2 n ∑ X i2 − ( ∑ X i ) 2 ˆ ˆ β1 = Y − β 2 X
ˆ var( β 2 ) = ˆ se ( β 2 ) =

σ
x i2 x i2
σ
2 i 2 i
∑ ˆ )= ∑ X σ var( β n∑ x ˆ )=σ ∑ X se ( β n∑ x
1 1
2
2 i 2 i
1-20
第三节 OLS 估计的精度
σ

2
的估计
ˆ σ2 =
ui的 σ 2的OLS估计量
ˆ ˆ E β1 = β1 , E β 2 = β 2
量中具有最小方差
1-22
拟合优度的度量: 第五节 拟合优度的度量:判定系数 r2
拟合优度( 拟合优度(goodness of fit)是指样本回归线与样本 ) 观测值之间的拟合程度。 观测值之间的拟合程度。 判定系数r 判定系数 2 (Coefficient of determination)或R2 就 或 是衡量样本回归线对数据拟合程度的总度量。 是衡量样本回归线对数据拟合程度的总度量。 如何计算呢? 如何计算呢?

第3章:双变量回归模型:估计问题

第3章:双变量回归模型:估计问题

最小二乘估计
1. 德国科学家Karl Gauss(1777—1855)提出用 德国科学家Karl Gauss(1777—1855)提出用 最小化图中垂直方向的误差平方和来估计参数
2. 使因变量的观察值与估计值之间的离差平方 ˆ ˆ 和达到最小来求得β 0 和 β1的方法。即
ˆ ˆ ˆ ˆ ˆ ˆ min ∑ (ui ) 2 = ∑ (Yi − Yi ) 2 = ∑ (Yi − β1 − β 2 X i ) 2 = f ( β1 , β 2 )
回归分析的目的:是运用样本数据估计SRL, 回归分析的目的:是运用样本数据估计SRL,使 SRL SRL能最大限度逼近于PRL。 能最大限度逼近于PRL SRL能最大限度逼近于PRL。 由此而提出的问题是,在什么假定下,运用何种 由此而提出的问题是,在什么假定下, 方法形成SRL SRL, SRL尽可能逼近PRL? 尽可能逼近PRL 方法形成SRL,使SRL尽可能逼近PRL 注意:总体回归函数或直线是:固定的、唯一的 且是未知的。而我们每抽取一个样本,就可以得 出一条样本回归直线,所以样本回归直线不是固 定的,会随着样本的不同而不同,且是已知的, 估计思路就是用已知的或者可以获得的信息来估 计未知的总体信息。
i i i 2 i 2
∑ X ∑Y ∑XY −
i i i
i
1 (均值X = ∑ X i) n
2
∑ X Y − X ∑ Y ( (∑ X ) = n ∑ X − nX ∑Y ( X − X ) = ∑ X − nX ∑ ( X − X )(Y − Y ) = ∑(X − X )
i i i 2 i i 2 i 2 i
i i i 2 i 2 i
i
X i2 ∑ Y i − ∑ X i ∑ X iYi ∑ n∑ X i2 − (∑ X i ) 2

第3章 双变量回归模型:估计问题.ppt

第3章 双变量回归模型:估计问题.ppt

() 式乘以 Xi ,() 式乘以n,得
请大家自己推导一次
贵州财经大学经济研究所 白万平 教授


Xi
Yi ˆ1n
X i ˆ2
2
Xi
(1)

n X i Yi ˆ1n X i ˆ2n X i 2 (2)
(2)-(1)得 :
n X iYi X i Yi ˆ2[n X i 2 X i 2 ]
贵州财经大学经济研究所 白万平 教授
假定5:各个干扰之间无自相关
给定任意两个X值,Xi和Xj,ui和uj之间的相关为零
注:
xi yi (Xi X )(Yi Y ) XiYi X Yi Y Xi nXY
其中 Xi nX Yi nY
上式 XiYi 2nXY nXY

n X iYi nXY
X iYi X i n
Yi
xi2 (Xi X )2 Xi2 2X Xi nX 2
Xi nX
上式
Xi2 2nX 2 nX 2
n Xi 2 nX 2
Xi2 n
2
Xi
贵州财经大学经济研究所 白万平 教授
返回
OLS估计量的数值性质:
Ⅰ.OLS估计量是纯粹可以用可观测的样本量(指X和Y)表达的, 因此,这些量是比较容易计算的
可以表达为离差形式(deviation form):
yi ˆ2 xi uˆi
证明: 我们已知有:
Y ˆ1 ˆ2 X
(2.6.2)式减去(3.1.12)式得:
(Yi Y ) ˆ2 (Xi X ) uˆi

线性回归分析——双变量模型

线性回归分析——双变量模型

线性回归分析双变量模型回归分析的含义回归分析是研究一个叫做因变量的变量对另一个或多个叫做解释变量的变量的统计依赖关系。

其用意在于,通过解释变量的已知值或给定值去估计或预测因变量的总体均值。

双变量回归分析:只考虑一个解释变量。

(一元回归分析,简单回归分析)复回归分析:考虑两个以上解释变量。

(多元回归分析)统计关系与确定性关系统计(依赖)关系:非确定性的关系。

在统计依赖关系中,主要处理的是随机变量,也就是有着概率分布的变量。

特别地,因变量的内在随机性是注定存在的。

例如:农作物收成对气温、降雨、阳光以及施肥的依赖关系便是统计性质的。

这些解释变量固然重要,但是并不能使我们准确地预测农作物的收成。

确定性关系:函数关系。

例如物理学中的各种定律。

)/(221r m m k F回归与因果关系❑回归分析研究因变量对于解释变量的统计依赖关系,但并不一定意味着因果关系。

一个统计关系式,不管多强和多么具有启发性,都永远不能确立因果联系。

❑因果关系的确立必须来自于统计关系以外,最终来自于这种或那种理论(先验的或是理论上的)。

回归分析与相关分析(一)❑相关分析:用相关系数测度变量之间的线性关联程度。

例如:测度统计学成绩和高等数学成绩的的相关系数。

假设测得0.90,说明两者存在较强的线性相关。

❑回归分析:感兴趣的是,如何从给定的解释变量去预测因变量的平均取值。

例如:给定一个学生的高数成绩为80分,他的统计学成绩平均来说应该是多少分。

回归分析与相关分析(二)❑在相关分析中,对称地对待任何两个变量,没有因变量和解释变量的区分。

而且,两个变量都被当作随机变量来处理。

❑在回归分析中,因变量和解释变量的处理方法是不对称的。

因变量被当作是统计的,随机的。

而解释变量被当作是(在重复抽样中)取固定的数值,是非随机的。

(把解释变量假定为非随机,主要是为了研究的便利,在高级计量经济学中,一般不需要这个假定。

)双变量回归模型(一元线性回归模型)双变量回归模型(最简单的回归模型)模型特点因变量(Y)仅依赖于唯一的一个解释变量(X)。

3.1双变量线性回归分析的基本概念

3.1双变量线性回归分析的基本概念


随机误差项的意义(引入原因) (1)理论的含糊性; (2)数据的欠缺; (3)众多细小因素对因变量的综合影响; (4)变量的观测误差的影响; (5)模型设定误差的影响; (6)变量内在随机性的影响; (7) 省略原则。
回归模型存在两个特点:
建立在某些假定条件不变前提下抽象出来 的回归函数不能百分之百地再现所研究的 经济过程。 也正是由于这些假定与抽象,才使我们能 够透过复杂的经济现象,深刻认识到该经 济过程的本质。
由上图发现:随着收入的增加,消费支出Y“平 均地说”也在增加,且Y的条件均值均落在一根 正斜率的直线上。这条直线称为总体回归直线。
概念(二)
当解释变量Xi取给定值时因变量Yi的条件期望 值或条件均值的轨迹称为总体回归曲线 (population regression curve)。 总体回归直线(Population regression line, PRL )
二、线性的含义
线性回归模型有两种解释: (1)对变量为线性 (2)对参数为线性

三、 PRF的随机设定以及随机误差项的性质 和意义
PRF说明了在给定的收入水平下,该社区家庭的 平均消费支出随收入变化的规律。 但对某一个别的家庭,其消费支出可能与该平均 水平有偏差。 ui Yi E(Y | X i )
总体回归函数PRF的随机设定形式 含义:它表明因变量除了受解释变量的系统 性影响外,还受其他因素的随机性影响。 由于函数中引入了随机项,成为计量经济学 模型,因此也称为总体回归模型。
随机误差项的性质

随机误差项是所有可能影响因变量,但又 未能包括到回归模型中来的被忽略变量的 替代(surrogate)或代理(proxy)变量。 E(ui| Xi)=0

线性回归分析——双变量模型

线性回归分析——双变量模型

线性回归分析——双变量模型在进行线性回归分析之前,我们首先需要明确我们要解决的问题,确定自变量和因变量。

比如,我们可以研究体重和身高之间的关系,其中体重是因变量,身高是自变量。

收集到数据后,我们可以进行描述性统计分析来对数据进行初步的了解。

我们可以计算出体重和身高的平均值、方差、最大值和最小值等统计指标。

此外,我们还可以绘制散点图来观察变量之间的关系。

在进行线性回归分析之前,我们需要满足一些假设条件。

首先,我们假设自变量和因变量之间存在线性关系。

其次,我们假设观测误差服从正态分布。

最后,我们假设观测误差的方差是常数。

接下来,我们可以通过最小二乘法来估计线性回归模型的参数。

最小二乘法的目标是最小化观测值与预测值之间的残差的平方和。

我们可以使用统计软件或者编程语言来进行计算。

线性回归模型可以表示为:Y=β0+β1X+ε其中,Y表示因变量,X表示自变量,β0表示截距,β1表示斜率,ε表示观测误差。

在进行参数估计后,我们可以对模型进行拟合优度的评估。

拟合优度指标可以帮助我们判断模型的拟合程度。

常见的拟合优度指标有R方值、调整R方值和残差分析。

R方值表示因变量的变异程度可以由自变量解释的比例。

R方值的取值范围是0到1,越接近1表示模型的拟合效果越好。

调整R方值是在R方值的基础上考虑模型中自变量的个数进行修正。

残差分析可以用来评估模型中未解释的部分。

在进行结果解释时,我们需要注意解释截距和斜率的意义。

截距表示当自变量为0时,因变量的值。

斜率表示自变量的单位变化对因变量的影响。

最后,我们还可以对模型的统计显著性进行检验。

常见的方法有t检验和F检验。

t检验可以用来判断截距和斜率的显著性,F检验可以用来判断模型整体的显著性。

总结:线性回归分析是一种常用的数据分析方法,可以用于研究两个变量之间的线性关系。

通过收集数据,建立模型,估计参数和进行拟合优度评估,我们可以获得对变量之间关系的深入认识。

同时,我们还可以通过检验模型的显著性来判断模型的可靠性。

计量经济学 两变量线性回归

计量经济学 两变量线性回归

消费性支出 y 585 576
1983
1984
686
834 1075 1293 1437
615
726 992 1170 1282
例3-1 上海市人均居民收 入和人均消费支出数据 (1981-2002)
1985 1986 1987
1988
1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002
i i i
最小。
23
1.最小二乘估计(OLS)(续)
核心:残差平方和 ei 2 最小。
min V ei Yi (a bX i )
2 i i
i
2
一阶条件为: V 0 a V 0 b
24
1.最小二乘估计(OLS)(续)
V 2 (Yi a bX i ) 0 a V 2 (Yi a bX i ) X i 0 b
(Y a bX ) 0
i i
(Yi a bX i ) X i 0
正规方程组
ei 0 利用残差记号ei可以 i 把正规方程组写为: e X 0 i i i
25
参数α和β的最小二乘估计量a和b
由正规方程 组得到:
Yi na b X i X iYi a X i b X i 2
3
1.模型建立
建立两变量线性回归模型必须有理论和现实 根据 一个例子: 凯恩斯绝对收入假设消费理论:消费(Y) 是由收入(X )唯一决定的,是收入的线性 函数: Y=+X 要利用经验和数据分布情况来判断变量 间的关系是否是线性关系。

第3章 双变量线性回归模型

第3章   双变量线性回归模型
第3章 双变量线性回归模型
• • • • • • • 3.1 模型的建立及其假设条件 3.2 双变量线性回归模型的参数估计 3.3 最小二乘估计量的统计性质 3.4 用判定系数检验回归方程的拟合优度 3.5 回归系数估计值的显著性检验与置信 区间 3.6 双变量线性回归方程的预测
3.1 模型的建立及其假设条件
0 1
E Y
i


X
i
i
, i 1, 2 , , n,
• ●样本回归模型 • ●Y i X


0
1

i
e
i
• • • •
● 0 是 0 的估计值 ● 是 的估计值 ● e i 是u i 的估计值 ●样本回归方程:
1
1

Y

i


0

X 1

2 i
)


1
~ N ( ,
1

2 u 2 i
x
)
3.5.1随机变量u的方差
2
• ●可以证明, 是 u 的无偏估计量,即: S
2
e


2

u
S
2 e

e
2 i
n 2
E (S e)
2
2 u
• ● 、 的标准差估计量分别为S , S
0
1





0
S
(2)

Y
i



o
X
1
i
称为总体回归直线
· · · ·

Y

第三章 双变量回归模型:估计问题

第三章 双变量回归模型:估计问题
i i i i i i i i i 1 i i i 1 2 i 1 i i
2 i
)
0
②平均数相等
③残差和为零
ˆ u
i
ˆ Yi Y
ˆi 0 0或 u
ˆ ˆ X u ˆ u ˆi ˆi Yi Y i 0 1 i
④拟合值与残差不相关 ⑤自变量与残差不相关
ˆ ,u ˆi ) 0 COV (Y i
2
1的估计的精密度能够随 n的增加而增加。
ˆ 的方差与 2和 X 2成正比, 2、 i 0 而与 x i 和样本大小n成反比。
2
ˆ , ˆ ) X var( ˆ) cov( 0 1 1 X (
当X为正数时,协方差是负 的, 说明如果1被过高估计(即斜率被 估计得太陡), 则截距系数 0 将被过低估计。
二、最小二乘估计的精度或标准差

i 2
ˆ ) var( 1
X
X
2

x
2
2
, xi ( X i X )
i
ˆ ) Se( 1

2 ( X X ) i
2 2 X 1 X i 2 ˆ ) 2 var( 0 2 n x2 n x i i
一、估计方法初探
PRF : Yi 0 1 X i ui (i 1, 2, n)
ˆ ˆ X u ˆ u ˆ ˆi SRF : Yi Y 0 1 i i i
怎样估计样本回归直线呢?显然综合起来看, 这条直线处于样本数据的中心位置最合理。 • (1)用“残差和最小”作为确定直线位置的 标准。但很快发现计算“残差和”存在相互 抵消的问题。不能用于实际计算。 • (2)用“残差绝对值的和最小”确定直线位 置也是一个途径。但绝对值的计算比较麻烦。 应进一步寻找更好的估计方法。

第三章 双变量模型

第三章 双变量模型
暨南大学金融系 ZHT 23
ˆ) = β 同样的方法可以证明: E ( β 1 1
暨南大学金融系 ZHT 24
3、有效性(最小方差)
u
3、有效性(最小方差)
u
u
OLS参数估计量的有效性指的是: 在一切线性、无偏估计量中,OLS参数估计量是方 差最小的。 高斯-马尔可夫定理:在给定经典线性回归模型的 假定下,最小二乘估计量,在无偏线性估计量中, 有最小方差。也就是说它们是BLUE(Best Linear Unbiased Estimator )。 通俗地讲,就是估计量围绕真实值的波动是最小 的,或者说最估计量最密集地分布在真实值附近。
暨南大学金融系 ZHTFra bibliotekb 的方差: Var (b) = σ 2 ∑ hi2 = σ 2 ∑ (hi − wi + wi )
u
暨南大学金融系 ZHT 7
最小二乘法的数学原理
u
纵向距离是Y的实际值与拟合值之差,差异大 拟合不好,差异小拟合好,所以称为残差、拟 合误差或剩余。 将所有纵向距离平方后相加,即得误差平方 和,“最好”直线就是使误差平方和最小的直 线。拟合直线在总体上最接近实际观测点。 于是可以运用求极值的原理,将求最好拟合直 线问题转换为求误差平方和最小的问题— — OLS。
i 1 2 2 2
i
i
1, 2,3都是有限样本 性质;4 是渐进性质
19 暨南大学金融系 ZHT 20
暨南大学金融系 ZHT
ˆ= ∑ (Y − Y )( X − X ) = ∑ Y ( X − X ) β ∑( X − X ) ∑( X − X )
i i i i 2 2 2 i i
1、线性
=∑ [
∑ (X

计量经济学:第3章 双变量模型:估计与检验

计量经济学:第3章   双变量模型:估计与检验
xi2
ˆ
的方差:Var (ˆ )
X
2 i
nxi2
2
ˆ Y ˆ X
ˆ
xi yi xi2
2 的估计量
e2
ˆ 2
i
n2
ˆ:残差的标准差s,又称为回归标准误,
度量了真实值与估计量的离差。
7
3.3 OLS估计量的性质
高斯-马尔可夫定理 (Gauss-Markov theorem) 如果满足古典线性回归模型的基本假 定,则在所有线性无偏估计量中, OLS估计量具有最小方差。即OLS估 计量是最优线性无偏估计量(BLUE) (Best Linear Unbiased Estimator)。
y | Coef. Std. Err. t P>|t| -----------------------------------------------------------
x | -.479529 .1140218 -4.21 0.002 _cons | 2.691124 .1216225 22.13 0.000
Var( X )
0 C ov( X , X ) C ov( X , u)
Var( X )
C ov( X , u)
Var( X )
11
回归估计量的性质 Y X u
Yˆ ˆ ˆX
ˆ C ov( X ,Y ) C ov( X ,[ X u])
Var( X )
Var( X )
Var( X )
0 C ov( X , X ) C ov( X , )
Var( X )
C ov( X , )
Var( X )
10
回归估计量的性质 Y X u
Yˆ ˆ ˆX

线性回归的基本思想双变量模型

线性回归的基本思想双变量模型
均值。 可同时进行上述各项分析。
2-14
2.2 总体归函数(PRF):假想一例
2-15
图2-1 家庭年收入与数学S.A.T分数
2-16
2.2 总体归函数(PRF):假想一例
分析:
(1)由于不确定因素的影响,对同一收入水平X, 不同学生的成绩不完全相同;
(2)但由于调查的完备性,给定收入水平X的分 数Y的分布是确定的,即以X的给定值为条件的Y的 条 件 分 布 ( Conditional distribution ) 是 已 知 的 ,
由于变量间关系的随机性,回归分析关心的 是根据解释变量的已知或给定值,考察被解 释变量的总体均值,即当解释变量取某个确 定值时,与之统计相关的被解释变量所有可 能出现的对应值的平均值。严格说,回归分 析是条件回归分析(conditional regression annlysis)
2-20
2.2 总体归函数(PRF):假想一例
E(Y ) B1 B22 Xi (2 10)
2-35
2.6 “线性”回归的特殊含义
我们研究“线性”回归一词是指对参数为线 性的一种回归(即参数只以它的1次方出现); 对解释变量X则可以是或不是线性的
2-36
2.7 从双变量回归到多元线性回归
E(Y ) B1 B2 X 2i B3 X3i B4 X 4i (2-11)
2-23
2.3 总体回归函数的统计或随机设定
2-24
2.4 随机误差项的性质
1.误差项代表了未纳入模型变量的影响。 2.即使模型中包括了决定数学分数的所有 变量,其内在随机性也不可避免,这是做任 何努力都无法解释的。 3. 还代表了度量误差。 4.“奥卡姆剃刀原则”——即描述应该尽 可能简单,只要不遗漏重要的信息。

3.1双变量线性回归分析的基本概念【精】

3.1双变量线性回归分析的基本概念【精】
ad 9

在引例中,条件期望值E(Y|Xi)是Xi的一个线 性函数,可以记为: E(Y|Xi)=1+2Xi
线性总体回归函 数
1和2为未知而固定的参数,称为回归系数 (regression coefficients)。1和2也分别称 为截距(intercept)和斜率系数(slope coefficient)。
ad
2
§3.1 双变量线性回归分析的 基本概念
一、总体回归直线与总体回归函数(PRF) 二、线性的含义 三、PRF的随机设定以及随机误差项的性质和意义 四、样本回归直线与样本回归函数(SRF)
ad
3
一、总体回归直线与总体回归函数(PRF)
ad
4
概念(一) 1、条件分布(Conditional 的分布。 2、条件概率(Conditional probability):给 定X的Y的概率,记为P(Y|Xi) 。 3、条件期望(Conditional Expectation ) 给定X的Y的期望值,记为E(Y|X=Xi)
ad 5
数据相对应的条件概率P(Y|Xi)
800 1100 1/6 1/6 1/6 1/6 1/6 1/6 1400 1/11 1/11 1/11 1/11 1/11 1/11 1/11 1/11 1/11 1/11 1/11 1700 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 2000 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 2300 1/14 1/14 1/14 1/14 1/14 1/14 1/14 1/14 1/14 1/14 1/14 1/14 1/14 1/14 1705 2600 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 2900 1/10 1/10 1/10 1/10 1/10 1/10 1/10 1/10 1/10 1/10 3200 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 3500 1/6 1/6 1/6 1/6 1/6 1/6

第3章双变量模型假设检验

第3章双变量模型假设检验

正态分布随机变量的线 性函数也服从正态分布
应变量Y也服从正态分布
OLS估计量是线性估计量,是应变量Y的线性函数 正态分布随机变量的线性 函数也服从正态分布
OLS估计量也服从正态分布
b1
N ( B1 ,

X n x
2 2
2
)
b2
N ( B2 ,
x

2 2
)
为什么要推导OLS估计量的抽样分布?
异方差
Y
var(i | X i ) i 2
var(i | X1 ) 12
var(i | X 3 ) 32
X1
X2
X3
X
假定3.5 无自相关假定, Cov(ui , u j ) 0
i j
ui
ui
ui
uj
uj
uj
3.2 OLS估计量的方差与标准误
OLS估计量是随机变量,这样,就会产生抽样误差, 即不同样本的估计值的差异。
2 var( | X ) 假定3.4 同方差假定 i i
Y
var(i | X 3 ) 2
var(i | X1 ) 2
X1
X2
X3
X
假定同方差的目的是从不同的子总体中抽取 的Y值都是同样可靠的。因为它们各自的方 差是相等的,其分散程度相同。
相反,如果存在异方差,不同的子总体的方差 不同,那么一般说来,从方差较大的子总体中 抽取的Y值代表性较____。
Y
E(u | X 3 ) 0
E(u | X1 ) 0
X1
X2
X3
X
对于确定性的总体回归函数
E(Y | X i ) B1 B2 X i

最小二乘估计的分布和标准化

最小二乘估计的分布和标准化
1 1 a b Y X
Y ae bX
7
2、例子:
(1)上海经济消费函数研究 P66;
(2)科布—道格拉斯生产函数 P68;
8
例3-1 上海经济的消费规律研究
年份
1981
可支配收入 Y
637
消费性支出 年份 CC
585 1992
可支配收入 Y
3009
消费性支 出C
2509
1982
1983 1984 1985 1986 1987 1988 1989 1990 1991
29
1 X i = n
和V 两个指标的性质

=0, i ( X i X ) = i X i =1,
i i
i
1 i 2 ( X X ) i i
2 i
i

V =1, Vi X i =0
i i
i
30
二、最小二乘估计的均值和无 偏性


定义:参数估计量的均值就是真实值: E[b] E[a] b的无偏性的证明
消费性支出 CC
585 576 615 726 992 1170 1282 1648 1812 1936 2167
年份
1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002
可支配收入 Y
3009 4277 5868 7172 8159 8439 8773 10932 11718 12883 13250
11
二、模型的假设
1、特定的方法适用的模型是有条件的,因此必 须对模型先作设定。 2、六条假设 (1)变量间存在随机函数关系Y= + X + ; (2)误差项均值为0; (3)误差序列同方差; (4)误差序列不相关; (5)X是确定性的,非随机变量; (6)误差项服从正态分布。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(2)两变量之间的关系可能不是严格线性的,u反 映了与直线的偏差。
(3)经济行为是随机的,我们能够用 Y=α+βX 解释“典型”的行为,而用u来表示个体偏差。 (4)总会出现测量误差, 使得任何精确的关系不 可能存在。
二. 普通最小二乘法(OLS法, Ordinary Least squares)
(2)E(uiuj) = 0, i≠j 即各期扰动项互不相关。也就是假定它们之间无
自相关或无序列相关。
实际上该假设等同于:
cov( uI, uj) = 0, i≠j 这是因为:cov(uI, uj) = E{[ui - E(ui)][uj - E(uj)]}
= E(uiuj) ——根据假设(1)
(3)E(ut2)= 2, t=1,2,…,n 即各期扰动项的方差是一常数,也就是假定各
(5)ut ~ N( 0, 2 ) , t= 1, 2, ...,n 即扰动项服从正态分布。
满足条件(1)—(4)的线性回归模型称为古典线 性回归模型(CLR模型)。
2.最小二乘原理
我们的任务是, 在给定X和Y的一组观测值 (X1, Y1), (X2, Y2) , ..., (Xn, Yn) 的情况下,
Yt = + Xt + ut
序号 1
2
3
4
5
Yt 14 18 23 25 30
Xt 10 20 30 40 50
解:我们采用列表法计算。计算过程如下:
Yt
1
14
2
18
3
23
4
25
5
30
Σ
110
Xt
yt Yt Y xt Xt X
xt yt
xt 2
10
-8
-20
160
400
20
-4
-10
40
100
t=1,2,……,n
残差平方和
我们的目标是使拟合出来的直线在某种意 义上是最佳的,直观地看,也就是要求估计直 线尽可能地靠近各观测点,这意味着应使残差
总体上尽可能地小。要做到这一点,就必须用
某种方法将每个点相应的残差加在一起,使其 达到最小。理想的测度是残差平方和,即
et 2 (Yt Yˆt )2
双变量线性回归模型的统计假设
(1). E(ut) = 0, t= 1, 2, ...,n 即各期扰动项的均值(期望值)为0.
(2). E(uiuj) = 0 i j 即各期扰动项互不相关.
(3). E(ut2 ) = 2 , t= 1, 2, ...,n 即各期扰动项方差是一常数.
(4). 解释变量Xt 为非随机量 即Xt的取值是确定的, 而不是随机的.
一、拟合优度(Goodness of fit)的概念
用最小二乘法得到的回归直线 Yˆt ˆ ˆX t 至少
从残差平方和为最小这一意义上来说是所有可能直线 中最佳的拟合线。它是对Y和X之间关系的一种描述, 但该直线是不是Y和X之间关系的一种恰当的描述呢? 如果各观测点紧密地聚集在这条直线的周围,则表明 该直线对Y和X之间关系的描述是好的;否则,用直 线来描述这两个变量之间的关系就未必恰当,如下图 所示:
一. ˆ 和 ˆ 的均值
ˆ
xt yt
xt (Yt Y )
xtYt
Y
xt
xt2
xt2
xt2
xt2
xt (X t X ) X t X nX nX 0
ˆ xtYt xt ( X t ut )
xt2
xt2
ˆ xtYt xt ( X t ut )
1.双变量线性回归模型的统计假设
我们的模型是:
Yt = + Xt + ut , t = 1, 2, ...,n
这里 和 为未知总体参数,下一步的任务是应 用统计学的方法,由Y和X的观测值(即样本数据) 来估计和 的总体值,常用的估计方法就是最小二 乘法。为了应用最小二乘法,得到好的估计量,双 变量线性回归模型需要满足一些统计假设条件,这 些统计假设是:
n = 10 , X =23, Y =20
(X X)2 64, (X X)(Y Y) 37
则有
(
Xi X)(Yi (Xi X)2
Y)
37 64
0.58
Y X 20 0.58(23) 6.70
因而
Yi 6.70 0.58Xi
例2 设Y和X的5期观测值如下表所示,试估计方程
二. ˆ 和ˆ 的方差
Var( ˆ)=E{[ ˆ- E( ˆ)]2} ——根据定义
=E( ˆ-β)2
——由无偏性E( ˆ)=β
由上段结果: ˆ xtut xt2

ˆ xtut
xt2
(ˆ )2 (
xt ut xt2
)2
(
1 xt2 ) 2
( x1u1
x2u2
...
扰动项具有同方差性。 实际上该假设等同于:
Var( ut) = 0, i≠j 这是因为:
Var(ut)=E{[ut-E(ut)]2}= E(ut2) ——根据假设(1))
(4) Xt为非随机量 即Xt的取值是确定的, 而不是随机的。 有的书上采用弱一些的条件: E(Xtut) = 0, t=1,2,…,n 即解释变量X与扰动项u不相关。
对于任何数据点 (Xt, Yt), 此直线将Yt 的总值 分成两部分。
第一部分是Yt的拟合值或预测值 Yˆt :
Yˆt ˆ ˆX t , t=1,2,……,n
第二部分,et ,代表观测点对于回归线的误差,称为拟合
或预测的残差 (residuals):
et Yt Yˆt
t=1,2,……,n
即 et Yt ˆ ˆ Xt
考虑到假设条件(4),即Xt为非随机量,则由前面结果:
ˆ
xtut =
xt2
ktut
其中,
kt
xt xt2
这表明,ˆ 是N个正态分布变量u1,u2,…,un的线性
函数,因而亦为正态分布变量,即
类似的有:
ˆ ∽ N ( , 2 )
xt2
ˆ

2 N (,
X
2 t
)
n xt2
第三节 拟合优度的测度
当数据为时间序列时,往往用下标 t来表示观测 值的序号,从而(3)式变成
Yt = + Xt + ut , t = 1, 2, ...,n (3’)
为何要在模型中包括扰动项u
我们在上一章中已初步介绍了为什么要在模型中包 括扰动项u,下面进一步说明之:
(1)真正的关系是Y = f (X1, X2,… X ),但X2, X3,…, X 相对不重要,用u代表之。
对于古典线性回归模型(CLR模型) Yt=α+β+Xt ,普通最小二乘估计量(OLS估计 量)是最佳线性无偏估计量(BLUE)。
我们已在前面证明了无偏性,此外,由于:
ˆ xtYt xt2
——由上段结果,
= ktYt
其中 kt
xt xt2
这表明,ˆ 是诸样本观测值Yt(t=1,2,…,n)的线性函数,故ˆ
是线性估计量。
剩下的就是最佳性了,即 ˆ的方差小于等于β的其他任何线性
无偏估计量的方差,我们可以证明这一点,但由于时间关系,
从略。有兴趣的同学请参见教科书 P46-47。
四、ˆ和ˆ 的分布
我们在前面列出的假设条件(5)表明,
ut ~ N( 0, 2 ) , t= 1, 2, ...,n
即各期扰动项服从均值为0、方差为2的正态分布。
如何求出 Yt = + Xt + ut 中 和 的估计值
ˆ 和ˆ , 使得拟合的直线为最佳。
直观上看,也就是要求在X和Y的散点图上穿过 各观测点画出一条“最佳”直线,如下图所示 。
Y
* * Yˆ ˆ ˆX
Yt
* **
Yˆt
et * *
*
*
**
*
**
**
*
Xt
X
图2
残差
拟合的直线 Yˆ ˆ ˆX 称为拟合的回归线.
第三章 双变量线性回归模型
(简单线性回归模型)
(Simple Linear Regression Model)
第一节 双变量线性回归模型的估计
一. 双变量线性回归模型的概念
设 Y = 消费, X = 收入, 我们根据数据画出散点图
Y
*
*
*
*
*
图1
这意味着
Y = + X
(1)
我们写出计量经济模型
Y = + X + u
(2)
其中 u = 扰动项或 误差项
Y为因变量或被解释变量
X
X为自变量或解释变量
和 为未知参数
设我们有Y和X的n对观测值数据,则根据(2)式, 变量Y的每个观测值应由下式决定:
Yi = + Xi + ui , i = 1, 2, ...,n (3)
(3)式称为双变量线性回归模型或简单线性回归模 型。其中 和 为未知的总体参数,也称为回归模型 的系数( coefficients)。下标 i是观测值的序号。
xt2
xt2
1 xt2
(
xt
xt X t
xtut )
1 ( xt2
xt X t
xtut )
1 xt2
(
xt2 X
xt
xtut )
1 xt2
(
xt2
xtut )
即 ˆ
xt ut
xt2
两边取期望值,有:
E(ˆ ) xt E(ut ) xt2
(a)恰当描述
图2-3
相关文档
最新文档