3 双变量线性回归模型
ch3 双变量线性回归模型(数学)-1
在满足基本假设条件下,对一元线性回归模型: Yi 0 1 X i ui
随机抽取n组样本观测值(Xi, Yi)(i=1,2,…n)。
假如模型的参数估计量已经求得,为 那么Yi服从如下的正态分布:
3、总体回归函数(PRF) 回归分析关心的是根据解释变量的已知或给
定值,考察被解释变量的总体均值,即当解 释变量取某个确定值时,与之统计相关的被 解释变量所有可能出现的对应值的平均值。
E (Y | X i ) f ( X i )
例1 一个假想的社区有100户家庭组成,要研究 该社区每月家庭消费支出Y与每月家庭可支配收 入X的关系。 即如果知道了家庭的月收入,能否 预测该社区家庭的平均月消费支出水平。 为达到此目的,将该100户家庭划分为组内 收入差不多的10组,以分析每一收入组的家庭消 费支出。
注意 ①不线性相关并不意味着不相关。 ②有相关关系并不意味着一定有因果关系。 ③相关分析对称地对待任何(两个)变量,两 个变量都被看作是随机的。回归分析对变量 的处理方法存在不对称性,即区分应变量 (被解释变量)和自变量(解释变量):前 者是随机变量,后者不是。
回归分析构成计量经济学的方法论基础,其主要内 容包括: (1)根据样本观察值对经济计量模型参数进行估 计,求得回归方程; (2)对回归方程、参数估计值进行显著性检验; (3)利用回归方程进行分析、评价及预测。
第三章 经典单方程计量经济学模型: 双变量线性回归模型
一、回归分析概述 二、双变量线性回归模型的参数估计 三、最小二乘估计量的性质 四、拟合优度的测度 五、双变量回归中的区间估计和假设检验 六、双变量线性回归模型的应用——预测 小结:本章知识结构图
计量经济学(第四版)习题参考答案
第一章 绪论1.1 一般说来,计量经济分析按照以下步骤进行:(1)陈述理论(或假说) (2)建立计量经济模型 (3)收集数据(4)估计参数 (5)假设检验 (6)预测和政策分析 1.2 我们在计量经济模型中列出了影响因变量的解释变量,但它(它们)仅是影响因变量的主要因素,还有很多对因变量有影响的因素,它们相对而言不那么重要,因而未被包括在模型中。
为了使模型更现实,我们有必要在模型中引进扰动项u 来代表所有影响因变量的其它因素,这些因素包括相对而言不重要因而未被引入模型的变量,以及纯粹的随机因素。
1.3时间序列数据是按时间周期(即按固定的时间间隔)收集的数据,如年度或季度的国民生产总值、就业、货币供给、财政赤字或某人一生中每年的收入都是时间序列的例子。
横截面数据是在同一时点收集的不同个体(如个人、公司、国家等)的数据。
如人口普查数据、世界各国2000年国民生产总值、全班学生计量经济学成绩等都是横截面数据的例子。
1.4 估计量是指一个公式或方法,它告诉人们怎样用手中样本所提供的信息去估计总体参数。
在一项应用中,依据估计量算出的一个具体的数值,称为估计值。
如Y 就是一个估计量,1nii YY n==∑。
现有一样本,共4个数,100,104,96,130,则根据这个样本的数据运用均值估计量得出的均值估计值为5.107413096104100=+++。
第二章 计量经济分析的统计学基础2.1 略,参考教材。
2.2N SS x ==45=1.25 用α=0.05,N-1=15个自由度查表得005.0t =2.947,故99%置信限为x S t X 005.0± =174±2.947×1.25=174±3.684也就是说,根据样本,我们有99%的把握说,北京男高中生的平均身高在170.316至177.684厘米之间。
2.3 原假设120:0=μH备择假设120:1≠μH检验统计量()10/25XX μσ-Z ====查表96.1025.0=Z 因为Z= 5 >96.1025.0=Z ,故拒绝原假设, 即此样本不是取自一个均值为120元、标准差为10元的正态总体。
线性回归模型双变量线性回归模型
3.相关程度的度量—相关系数
总体线性相关系数:
Cov( X ,Y )
Var( X )Var(Y )
其中:Var(X ) ——X 的方差;Var(Y ) ——Y的方差
Cov( X ,Y ) ——X和Y的协方差
样本线性相关系数:
XY
__
__
( Xi X )(Yi Y )
__
__
( Xi X )2 (Yi Y )2
回归的现代意义: 一个应变量对若干解释变量 依存关系 的研究
回归的目的(实质): 由固定的解释变量去 估计应变量的平均值
注意几个概念
● Y 的条件分布
当解释变量 X 取某固定值时(条件),Y 的值不 确定,Y 的不同取值形成一定的分布,即Y 的条
件分布。
Y
● Y 的条件期望
对于 X的每一个取值, 对 Y 所形成的分布确
2110 2225 2319 2321 2365 2398 2487 2513 2538 2567 2610 2710
2388 2426 2488 2587 2650 2789 2853 2934 3110
1650 1900 2150 2400 2650
5000 2464 2589 2790 2856 2900 3021 3064 3142 3274
均值 E(Y的X偏i )差为 , 显u然i 是随机变u i量,则有
ui Yi E(Yi Xi ) Yi 1 2 Xi
或 Yi 1 2 Xi ui
•
ui
•
Xi X
3.如何理解总体回归函数
●实际的经济研究中总体回归函数通常是未知的, 只能根据经济理论和实践经验去设定。“计量” 的目的就是寻求PRF。
计量经济学ch3 双变量回归的估计
∑ sd (βˆ2 ) = var(βˆ2 ) = σ / xi2
同理,有
(3.12)
∑ ∑ var(βˆ1) = n
X
2 i
xi2
σ
2
⇒
sd (βˆ1 )
=σ
X
2 i
,
n xi2
(3.13)
总体方差σ 2 和标准差σ 是未知的,故需要用样本予以估计:
uˆi = yi − βˆ2 xi = β2 xi + (ui − u ) − βˆ2 xi = (β2 − βˆ2 )xi + (ui − u )
uˆ
2 i
)
/
∂βˆ
2
=
∂(
(Yi − βˆ1 − βˆ2 X i )2 ) / ∂βˆ2 = −2
(Yi − βˆ1 − βˆ2 X i )X i = −2
uˆi X i = 0
由此得到
∑ ∑ (Yi − βˆ1 − βˆ2 Xi ) = uˆi = 0 ∑ ∑ (Yi − βˆ1 − βˆ2 Xi )Xi = uˆi Xi = 0
6
为什么如此要求?
8.X 值要有变异性,即对于一个给定的样本,X 的值不能全部相同, 也就是说,X 的方差必须是一个有限的正数。
为什么如此要求?
9.正确设定了模型,或者说,所用的模型不存在设定误差。 所谓设定问题,在本书中包括: (1)模型应包括哪些变量, (2)模型的函数形式(如线性还是非线性), (3)对模型的变量和扰动应有哪些假定等。
E(kiui ) = 0)
3. βˆi (i = 1,2) 在所有线性无偏估计量中具有最小方差 (具有最小方差
的估计量称为有效估计量)。
第三章 双变量回归模型-估计问题
RSS) 则表示残差平方和(residual sum of squares, 则表示残差平方和
• n-2 是被称为自由度 是被称为自由度(degrees of freedom, df)的个数 的个数 •
1-21
的性质: 第四节 OLS的性质:高斯 马尔科夫定理 的性质 高斯-马尔科夫定理
(
)
(
)
(1)
(
)
(
)
(2)
1-8
正规方程(normal equations)及其解 正规方程 及其解
ˆ ˆ ∑ Yi = n β 1 + β 2 ∑ X i ˆ ˆ Y i X i = β 1 ∑ X i + β 2 ∑ X i2 ∑
ˆ = n ∑ X iYi − ∑ X i ∑ Yi = β2 n ∑ X i2 − ( ∑ X i ) 2 ˆ ˆ β1 = Y − β 2 X
ˆ var( β 2 ) = ˆ se ( β 2 ) =
∑
σ
x i2 x i2
σ
2 i 2 i
∑ ˆ )= ∑ X σ var( β n∑ x ˆ )=σ ∑ X se ( β n∑ x
1 1
2
2 i 2 i
1-20
第三节 OLS 估计的精度
σ
•
2
的估计
ˆ σ2 =
ui的 σ 2的OLS估计量
ˆ ˆ E β1 = β1 , E β 2 = β 2
量中具有最小方差
1-22
拟合优度的度量: 第五节 拟合优度的度量:判定系数 r2
拟合优度( 拟合优度(goodness of fit)是指样本回归线与样本 ) 观测值之间的拟合程度。 观测值之间的拟合程度。 判定系数r 判定系数 2 (Coefficient of determination)或R2 就 或 是衡量样本回归线对数据拟合程度的总度量。 是衡量样本回归线对数据拟合程度的总度量。 如何计算呢? 如何计算呢?
3.双变量回归模型(缩略版60页)
(
)
2
(
ˆ ui2
)
∂∑ ˆ ∂β
(
1
ˆ ui2
)
ˆ ˆ ∂∑ Yi − β1 − β2 Xi = ˆ ∂β
(
)
2
ˆ ˆ = −2∑ Yi − β1 − β2 Xi
(
)
2
ˆ ˆ ∂∑ Yi − β1 − β2 Xi = ˆ ∂β
2
(
1
)
2
ˆ ˆ = −2∑ Yi − β1 − β2 Xi Xi
(
)
一阶条件
确定性关系:函数关系。例如物理学中的各种
定律。
F = k (m1m2 / r )
2
2
回归与因果关系
回归分析研究因变量对于解释变量的统计依 赖关系,但并不一定意味着因果关系。一个 统计关系式,不管多强和多么具有启发性, 都永远不能确立因果联系。 因果关系的确立必须来自于统计关系以外, 最终来自于这种或那种理论(先验的或是理 论上的)。
27
三、最小方差性
∑xi yi = ∑k Y ˆ β2 = i i 2 ∑xi
构造另一线性无偏估计量β = ∑wiYi
* 2
满足E 满足E(β
* 2) =
β2
2
可以证明 : ˆ ) ≤ var( β*) var( β
2
28
正态性假定下OLS估计量的概率分布 ˆ = k Y,其中k = xi β2 ∑ i i i 2 ∑xi ˆ β2 = ∑ki (β1 + β2 Xi + ui )
23
一、线性
∑xi yi = ∑ xi y = ∑( xi )(Y −Y ) ˆ β2 = i 2 2 i 2 ∑xi ∑xi ∑xi xi = ∑kiYi − ∑kiY ki = 2 ∑xi = ∑kiYi −Y ∑ki = ∑kiYi
第二章 线性回归的思想:双变量回归模型
二、总体回归函数
从图2.2我们可以看出,条件均值E (Y/Xi)是Xi 的函数,即:
E(Y/Xi)= f (Xi)
(2.1)
其中,f (Xi)表示解释变量Xi 的某个函数 。在我们的引例中,E(Y/Xi)是Xi 的一个线 性函数。
式(2.1)就是总体回归函数,简称 总体回归。它表明在给定Xi 下Y 的分布 的总体均值与Xi有函数关系,就是说它 给出了Y 的均值是怎样随X 值的变化而 变化的。
2.在经济学中,经济学家要研究个人
消费支出与个人可支配收入的依赖关系。
这种分析有助于估计边际消费倾向,就是
可支配收入每增加一元引起消费支出的平
均变化。
3.在企业中,我们很想知道人们对企
业产品的需求与广告费开支的关系。这种
研究有助于估计出相对于广告费支出的需
求弹性,即广告费支出每变化百分之一的
需求变化百分比,这有助于制定最优广告
函数f (Xi)采取什么函数形式,是一个
需要解决的重要问题。在实际经济系统
中,我们不会得到总体的全部数据,因
而就无法据已知数据确定总体回归函数 的函数形式。同时,对总体回归函数的 形式只能据经济理论与经验去推断。
例如,我们可以假定消费支出与收入有 线性关系。则总体回归函数为
E(Y / X i ) 1 2 X i
有异,但图2.2清楚地表明随着收入的增
加,消费支出平均地说也在增加。就是
说,散点图启示我们,Y 的条件均值随X
的增加而增加。
如果我们观察图2.2中那些代表Y 的
各个条件均值的粗圆点,则表明这些条
件平均值落在一根有正斜率的直线上。
我们称这根直线叫做总体回归线,它是
Y 对X 的回归。
第3章 双变量回归模型:估计问题.ppt
() 式乘以 Xi ,() 式乘以n,得
请大家自己推导一次
贵州财经大学经济研究所 白万平 教授
Xi
Yi ˆ1n
X i ˆ2
2
Xi
(1)
n X i Yi ˆ1n X i ˆ2n X i 2 (2)
(2)-(1)得 :
n X iYi X i Yi ˆ2[n X i 2 X i 2 ]
贵州财经大学经济研究所 白万平 教授
假定5:各个干扰之间无自相关
给定任意两个X值,Xi和Xj,ui和uj之间的相关为零
注:
xi yi (Xi X )(Yi Y ) XiYi X Yi Y Xi nXY
其中 Xi nX Yi nY
上式 XiYi 2nXY nXY
n X iYi nXY
X iYi X i n
Yi
xi2 (Xi X )2 Xi2 2X Xi nX 2
Xi nX
上式
Xi2 2nX 2 nX 2
n Xi 2 nX 2
Xi2 n
2
Xi
贵州财经大学经济研究所 白万平 教授
返回
OLS估计量的数值性质:
Ⅰ.OLS估计量是纯粹可以用可观测的样本量(指X和Y)表达的, 因此,这些量是比较容易计算的
可以表达为离差形式(deviation form):
yi ˆ2 xi uˆi
证明: 我们已知有:
Y ˆ1 ˆ2 X
(2.6.2)式减去(3.1.12)式得:
(Yi Y ) ˆ2 (Xi X ) uˆi
两变量线性回归分析
16
样本趋势的拟合和回归残差(二)
建立判断回归直线对样本趋势拟合程度的标准,关健是要利 用样本点与回归直线之间的纵向偏差,我们把这种偏差称为 “回归残差”或者简称“残差”
如果样本回归直线为Y=a+bX,那么由于Y和X之间真实关系是 随机线性函数关系,因此通常多数样本点 ( X i , Yi ) 不会落在这条回归直线上,它们与回归直线之间有一段 纵 向距离,也就是残差 ei Yi (a bXi ) (i=1,2,…n)。
13
参数估计的基本思路(一)
虽然设定两变量线性回归模型的前提是相信两变量之间确 实存在特定的线性因果关系,模型两个参数α和β的“真实 值”是客观存在的
因为我们无法观察到变量关系本身,我们能观察到的只是 这种变量关系所产生的结果,即有关的经济现象或经济数 据,因而我们不可能知道这些真实值
由于存在随机扰动因素的影响,我们所观察到的结果,不 可能精确地反映变量关系中趋势部分的确实情况,也就是 参数α和β的“真实值”,随机扰动项给两变量的真实关系 提供了一种“掩护”,便我们无法发现它的庐山真面目。 由于扰动项影响始终存在,因此即使增加观测数据也并不 能解决问题
b是β的线性无偏估计,
b iYi i ( X i i )] i i X i iE[i ] ii
i
i
i
i
i
i
Var[b] E[b E[b]]2 E[b ]2 E[ ii ]2 i2E[i ]2 2 i2
i
i
i
设b’是β的线性无偏估计,则有
23
可以证明,只要X与误差项没有多在的相关性,X是否是随 机变量一般并不会影响参数估计的性质和相关的统计分析
12
误差项服从正态分布
3.1双变量线性回归分析的基本概念
随机误差项的意义(引入原因) (1)理论的含糊性; (2)数据的欠缺; (3)众多细小因素对因变量的综合影响; (4)变量的观测误差的影响; (5)模型设定误差的影响; (6)变量内在随机性的影响; (7) 省略原则。
回归模型存在两个特点:
建立在某些假定条件不变前提下抽象出来 的回归函数不能百分之百地再现所研究的 经济过程。 也正是由于这些假定与抽象,才使我们能 够透过复杂的经济现象,深刻认识到该经 济过程的本质。
由上图发现:随着收入的增加,消费支出Y“平 均地说”也在增加,且Y的条件均值均落在一根 正斜率的直线上。这条直线称为总体回归直线。
概念(二)
当解释变量Xi取给定值时因变量Yi的条件期望 值或条件均值的轨迹称为总体回归曲线 (population regression curve)。 总体回归直线(Population regression line, PRL )
二、线性的含义
线性回归模型有两种解释: (1)对变量为线性 (2)对参数为线性
三、 PRF的随机设定以及随机误差项的性质 和意义
PRF说明了在给定的收入水平下,该社区家庭的 平均消费支出随收入变化的规律。 但对某一个别的家庭,其消费支出可能与该平均 水平有偏差。 ui Yi E(Y | X i )
总体回归函数PRF的随机设定形式 含义:它表明因变量除了受解释变量的系统 性影响外,还受其他因素的随机性影响。 由于函数中引入了随机项,成为计量经济学 模型,因此也称为总体回归模型。
随机误差项的性质
随机误差项是所有可能影响因变量,但又 未能包括到回归模型中来的被忽略变量的 替代(surrogate)或代理(proxy)变量。 E(ui| Xi)=0
计量经济学 两变量线性回归
消费性支出 y 585 576
1983
1984
686
834 1075 1293 1437
615
726 992 1170 1282
例3-1 上海市人均居民收 入和人均消费支出数据 (1981-2002)
1985 1986 1987
1988
1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002
i i i
最小。
23
1.最小二乘估计(OLS)(续)
核心:残差平方和 ei 2 最小。
min V ei Yi (a bX i )
2 i i
i
2
一阶条件为: V 0 a V 0 b
24
1.最小二乘估计(OLS)(续)
V 2 (Yi a bX i ) 0 a V 2 (Yi a bX i ) X i 0 b
(Y a bX ) 0
i i
(Yi a bX i ) X i 0
正规方程组
ei 0 利用残差记号ei可以 i 把正规方程组写为: e X 0 i i i
25
参数α和β的最小二乘估计量a和b
由正规方程 组得到:
Yi na b X i X iYi a X i b X i 2
3
1.模型建立
建立两变量线性回归模型必须有理论和现实 根据 一个例子: 凯恩斯绝对收入假设消费理论:消费(Y) 是由收入(X )唯一决定的,是收入的线性 函数: Y=+X 要利用经验和数据分布情况来判断变量 间的关系是否是线性关系。
线性回归分析(双变量模型)
双变量模型
回归分析的含义
回归分析是研究一个叫做因变量的变 量对另一个或多个叫做解释变量的变量 的统计依赖关系。其用意在于,通过解 释变量的已知值或给定值去估计或预测 因变量的总体均值。 双变量回归分析:只考虑一个解释变量。 (一元回归分析,简单回归分析) 复回归分析:考虑两个以上解释变量。 (多元回归分析)
回归分析与相关分析(二)
• 在相关分析中,对称地对待任何两个变量, 没有因变量和解释变量的区分。而且,两 个变量都被当作随机变量来处理。 • 在回归分析中,因变量和解释变量的处理 方法是不对称的。因变量被当作是统计的, 随机的。而解释变量被当作是(在重复抽 样中)取固定的数值,是非随机的。 (把解释变量假定为非随机,主要是为了 研究的便利,在高级计量经济学中,一般 不需要这个假定。)
确定性关系:函数关系。例如物理学中的各 2
F k ( m1 m 2 / r )
回归与因果关系
• 回归分析研究因变量对于解释变量的统计 依赖关系,但并不一定意味着因果关系。 一个统计关系式,不管多强和多么具有启 发性,都永远不能确立因果联系。 • 因果关系的确立必须来自于统计关系以外, 最终来自于这种或那种理论(先验的或是 理论上的)。
回归分析与相关分析(一)
• 相关分析:用相关系数测度变量之间的线 性关联程度。例如:测度统计学成绩和高 等数学成绩的的相关系数。假设测得0.90, 说明两者存在较强的线性相关。 • 回归分析:感兴趣的是,如何从给定的解 释变量去预测因变量的平均取值。例如: 给定一个学生的高数成绩为80分,他的统 计学成绩平均来说应该是多少分。
术语与符号
Y
因变量 (dependent variable) 被解释变量 (explained variable) 响应变量 (response variable) 被预测变量 (predicted variable) 回归子 (regressand)
第三章 双变量回归模型:估计问题
2 i
)
0
②平均数相等
③残差和为零
ˆ u
i
ˆ Yi Y
ˆi 0 0或 u
ˆ ˆ X u ˆ u ˆi ˆi Yi Y i 0 1 i
④拟合值与残差不相关 ⑤自变量与残差不相关
ˆ ,u ˆi ) 0 COV (Y i
2
1的估计的精密度能够随 n的增加而增加。
ˆ 的方差与 2和 X 2成正比, 2、 i 0 而与 x i 和样本大小n成反比。
2
ˆ , ˆ ) X var( ˆ) cov( 0 1 1 X (
当X为正数时,协方差是负 的, 说明如果1被过高估计(即斜率被 估计得太陡), 则截距系数 0 将被过低估计。
二、最小二乘估计的精度或标准差
i 2
ˆ ) var( 1
X
X
2
x
2
2
, xi ( X i X )
i
ˆ ) Se( 1
2 ( X X ) i
2 2 X 1 X i 2 ˆ ) 2 var( 0 2 n x2 n x i i
一、估计方法初探
PRF : Yi 0 1 X i ui (i 1, 2, n)
ˆ ˆ X u ˆ u ˆ ˆi SRF : Yi Y 0 1 i i i
怎样估计样本回归直线呢?显然综合起来看, 这条直线处于样本数据的中心位置最合理。 • (1)用“残差和最小”作为确定直线位置的 标准。但很快发现计算“残差和”存在相互 抵消的问题。不能用于实际计算。 • (2)用“残差绝对值的和最小”确定直线位 置也是一个途径。但绝对值的计算比较麻烦。 应进一步寻找更好的估计方法。
计量经济学(第四版)习题参考答案
计量经济学(第四版)习题参考答案潘省初第一章 绪论1.1 一般说来,计量经济分析按照以下步骤进行:(1)陈述理论(或假说) (2)建立计量经济模型 (3)收集数据 (4)估计参数 (5)假设检验 (6)预测和政策分析1.2 我们在计量经济模型中列出了影响因变量的解释变量,但它(它们)仅是影响因变量的主要因素,还有很多对因变量有影响的因素,它们相对而言不那么重要,因而未被包括在模型中。
为了使模型更现实,我们有必要在模型中引进扰动项u 来代表所有影响因变量的其它因素,这些因素包括相对而言不重要因而未被引入模型的变量,以及纯粹的随机因素。
1.3时间序列数据是按时间周期(即按固定的时间间隔)收集的数据,如年度或季度的国民生产总值、就业、货币供给、财政赤字或某人一生中每年的收入都是时间序列的例子。
横截面数据是在同一时点收集的不同个体(如个人、公司、国家等)的数据。
如人口普查数据、世界各国2000年国民生产总值、全班学生计量经济学成绩等都是横截面数据的例子。
1.4 估计量是指一个公式或方法,它告诉人们怎样用手中样本所提供的信息去估计总体参数。
在一项应用中,依据估计量算出的一个具体的数值,称为估计值。
如Y 就是一个估计量,1nii YY n==∑。
现有一样本,共4个数,100,104,96,130,则根据这个样本的数据运用均值估计量得出的均值估计值为5.107413096104100=+++。
第二章 计量经济分析的统计学基础2.1 略,参考教材。
2.2 NSS x ==45=1.25用=0.05,N-1=15个自由度查表得005.0t =2.947,故99%置信限为 x S t X 005.0± =174±2.947×1.25=174±3.684也就是说,根据样本,我们有99%的把握说,北京男高中生的平均身高在170.316至177.684厘米之间。
2.3 原假设 120:0=μH备择假设 120:1≠μH 检验统计量()10/2510/25XX μσ-Z ====查表96.1025.0=Z 因为Z= 5 >96.1025.0=Z ,故拒绝原假设, 即 此样本不是取自一个均值为120元、标准差为10元的正态总体。
ets3 双变量线性回归模型_笔记
回归:建立相关关系的过程。
计量经济学模型中都有随机扰动项U存在,
U包含了除因变量之外的其他一切可能
影响观测值偏离模型(直线)的因素。
回归模型中假设都是围绕随机扰动项U展开。
计量经济模型中只有U是随机的变量,X是确定
所以这也就使得Y的分布和U的分布一致。
残差:实际观测值与回归直线的差。
Y-Y'
最小二乘的基本思想是使得残差平方和最小,由此可以推出残差平方和为0
最小二乘估计量是指和。
最小二乘估计量具有的性质:
线性性中,是Y 的线性函数也可理解为是U 的线性函数。
单独的
∑i x =)(-
-∑x x i =0,而i i Y x ∑中i i Y x 是整体(由于i Y 变量,不同于Y 是常数)。
结论:
拟合优度:探索变量间的线性相关的强度。
最小二乘只是在给定样本下的最好拟合,只是保证了残差为0,但是未必样本挑的最恰当。
拟合优度的基本思想是“分解”,将离差分解为残差和解释的部分。
R方可以由其他一些系数导出。
例子见PDF中60页。
=
显著性检验:
F检验和拟合优度都是对模型整体的检验。
T检验是对单个参数的检验。
F检验思想:。
3.1双变量线性回归分析的基本概念【精】
在引例中,条件期望值E(Y|Xi)是Xi的一个线 性函数,可以记为: E(Y|Xi)=1+2Xi
线性总体回归函 数
1和2为未知而固定的参数,称为回归系数 (regression coefficients)。1和2也分别称 为截距(intercept)和斜率系数(slope coefficient)。
ad
2
§3.1 双变量线性回归分析的 基本概念
一、总体回归直线与总体回归函数(PRF) 二、线性的含义 三、PRF的随机设定以及随机误差项的性质和意义 四、样本回归直线与样本回归函数(SRF)
ad
3
一、总体回归直线与总体回归函数(PRF)
ad
4
概念(一) 1、条件分布(Conditional 的分布。 2、条件概率(Conditional probability):给 定X的Y的概率,记为P(Y|Xi) 。 3、条件期望(Conditional Expectation ) 给定X的Y的期望值,记为E(Y|X=Xi)
ad 5
数据相对应的条件概率P(Y|Xi)
800 1100 1/6 1/6 1/6 1/6 1/6 1/6 1400 1/11 1/11 1/11 1/11 1/11 1/11 1/11 1/11 1/11 1/11 1/11 1700 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 2000 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 2300 1/14 1/14 1/14 1/14 1/14 1/14 1/14 1/14 1/14 1/14 1/14 1/14 1/14 1/14 1705 2600 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 2900 1/10 1/10 1/10 1/10 1/10 1/10 1/10 1/10 1/10 1/10 3200 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 3500 1/6 1/6 1/6 1/6 1/6 1/6
第3章 双变量线性回归模型
• • • • • • • 3.1 模型的建立及其假设条件 3.2 双变量线性回归模型的参数估计 3.3 最小二乘估计量的统计性质 3.4 用判定系数检验回归方程的拟合优度 3.5 回归系数估计值的显著性检验与置信 区间 3.6 双变量线性回归方程的预测
3.1 模型的建立及其假设条件
0 1
E Y
i
X
i
i
, i 1, 2 , , n,
• ●样本回归模型 • ●Y i X
0
1
i
e
i
• • • •
● 0 是 0 的估计值 ● 是 的估计值 ● e i 是u i 的估计值 ●样本回归方程:
1
1
Y
i
0
X 1
2 i
)
1
~ N ( ,
1
2 u 2 i
x
)
3.5.1随机变量u的方差
2
• ●可以证明, 是 u 的无偏估计量,即: S
2
e
2
u
S
2 e
e
2 i
n 2
E (S e)
2
2 u
• ● 、 的标准差估计量分别为S , S
0
1
0
S
(2)
,
Y
i
o
X
1
i
称为总体回归直线
· · · ·
,
Y
3 双变量线性回归模型
双变量线性回归模型的统计假设
(1). E(ut) = 0, t= 1, 2, ...,n 即各期扰动项的均值(期望值)为0. (2). E(uiuj) = 0 i j 即各期扰动项互不相关. (3). E(ut2 ) = 2 , t= 1, 2, ...,n 即各期扰动项方差是一常数. (4). 解释变量Xt 为非随机量 即Xt的取值是确定的, 而不是随机的. (5). ut ~ N( 0, 2 ) , t= 1, 2, ...,n 即各期扰动项服从正态分布。
X X
ˆ 是 的无偏估计量。 即
ˆ 和 二. ˆ 的方差
ˆ ) E{[ ˆ E( ˆ )]2 } Var ( ˆ )2 E (
——根据定义
——由无偏性
ˆ) E (
x u ˆ 由上段结果: x x u ˆ 即 x
因而
例2 设Y和X的5期观测值如下表所示,试估计方程 Yt = + Xt + ut
序号
1 2 3 4 5
Yt Xt
14 10
18 20
23 30
25 40
30 50
解:我们采用列表法计算。计算过程如下:
Yt
1 2 3 4 5 Σ 14 18 23 25 30
Xt
10 20 30 40 50
3 例子 例1 对于第一段中的消费函数,若根据数据得到:
n = 10 ,
2 ( X X ) 64,
X
=23, Y =20
( X X )(Y Y) 37
2
则有
( X X )( Y Y ) 37 i i 058 . ( Xi X ) 64 X 20 058 Y . (23) 670 . i 670 Y . 058 . Xi
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
当数据为时间序列时,往往用下标 t来表示观测 值的序号,从而(3)式变成 Yt = + Xt + ut , t = 1, 2, ...,n (3’)
为何要在模型中包括扰动项u
我们在上一章中已初步介绍了为什么要在模型中包 括扰动项u,下面进一步说明之: (1)真正的关系是Y = f (X1, X2,… X ),但X2, X3,…, X 相对不重要,用u代表之。 (2)两变量之间的关系可能不是严格线性的,u反 映了与直线的偏差。 (3)经济行为是随机的,我们能够用 Y=α+βX 解释“典型”的行为,而用u来表示个体偏差。 (4)总会出现测量误差, 使得任何精确的关系不 可能存在。
Y
Yt
* * *
** * *
ˆX ˆ ˆ Y
ˆ Y t
et
* *
*
* * * *
*
*
*
Xt 图2
X
残差
ˆX 称为拟合的回归线. ˆ ˆ 拟合的直线 Y
对于任何数据点 (Xt, Yt), 此直线将Yt 的总值 分成两部分。
ˆ: 第一部分是Yt的拟合值或预测值 Y t
ˆX , ˆ ˆ Y t t
=β
ˆ 是β的无偏估计量。 这表明,
ˆ 无偏性的过程中, 我们仅用到(1)和(4)两 在证明 条假设条件。
ˆ X ,我们有: 由 ˆ Y
ˆX) ˆ ) E (Y E (
ˆX) E ( X u
ˆ) X E (u ) X E (
设我们有Y和X的n对观测值数据,则根据(2)式, 变量Y的每个观测值应由下式决定:
Yi = + Xi + ui , i = 1, 2, ...,n (3)
(3)式称为双变量线性回归模型或简单线性回归模 型。其中 和 为未知的总体参数,也称为回归模型 的系数( coefficients)。下标 i是观测值的序号。
估计方程为
ˆ 10.3 0.39 X Y t t
第二节 最小二乘估计量的性质
ˆ和 ˆ 的均值 一.
ˆ
由于
x y x
t 2 t
t
x (Y Y ) x Y x x
t t 2 t 2 t
t t
Y xt
2 x t
x (X
t
t
X ) Xt X nX nX 0
2 ˆ e ( Y Y ) t t t 2
15
最小二乘法
最小二乘法就是选择一条直线,使其残差平方和达 ˆ ,使得 ˆ 和 到最小值的方法。即选择
S et
2
2 ˆ (Yt Yt )
ˆX ) 2 ˆ (Yt t
达到最小值。
运用微积分知识,使上式达到最小值的必要条件 为:
一. 双变量线性回归模型的概念
设 Y = 消费, X = 收入, 我们根据数据画出散点图 Y * * * * 图1 X * 这意味着 Y = + X (1) 写出计量经济模型 Y = + X + u (2) 其中 u = 扰动项或 误差项 Y为因变量或被解释变量 X为自变量或解释变量 和 为未知参数
2 t 2 t
t tt t我们有:ˆ ) (2
xu ( x
t 2 t
t
)
2
1 2 ( x u x u ... x u ) 1 1 2 2 n n 2 2 ( xt )
1 2 2 ( x u xi x j uiu j ) 2 2 i i ( xt ) i j
双变量线性回归模型
(简单线性回归模型)
(Simple Linear Regression Model)
第一节 双变量线性回归模型的估计
第二节 最小二乘估计量的性质
第三节 拟合优度的测度
第四节 双变量回归中的区间估计和假 设检验
第五节 预测
第六节 有关最小二乘法的进一步讨论
第一节 双变量线性回归模型的估计
二. 普通最小二乘法(OLS法, Ordinary Least squares)
1.双变量线性回归模型的统计假设 我们的模型是: Yt = + Xt + ut , t = 1, 2, ...,n 这里 和 为未知总体参数,下一步的任务是应 用统计学的方法,由Y和X的观测值(即样本数据) 来估计和 的总体值,常用的估计方法就是最小二 乘法。为了应用最小二乘法,得到好的估计量,双 变量线性回归模型需要满足一些统计假设条件,这 些统计假设是:
——根据假设(2)
2 1 2 2 所以 E ( ˆ )2 ( x 0) 2 2 i 2 ( xt ) x t
即
ˆ) Var (
yt Yt Y
-8 -4 1 3 8
xt X t X
-20 -10 0 10 20
xt yt
160 40 0 30 160
xt
2
400 100 0 100 400 1000
110
150
0
0
390
Y
X 150 Y 110 X 30 22 n 5 n 5 ˆX 22 0.39 30 10.3 ˆ xt yt 390 0.39 ˆ Y 2 xt 1000
(3)E(ut2)= 2, t=1,2,…,n
即各期扰动项的方差是一常数,也就是假定各扰 动项具有同方差性。 实际上该假设等同于: Var( ut) = 2, t=1,2,…,n 这是因为: Var(ut)=E{[ut-E(ut)]2}= E(ut2) ——根据假设(1)
(4) Xt为非随机量 即Xt的取值是确定的, 而不是随机的。 事实上,我们后面证明无偏性和时仅需要解释变 量X与扰动项u不相关,但不容易验证之,因而通常采 用非随机量的假设。
两边取期望值,得:
2 ˆ E ( )
1 2 2 [ x E (ui ) xi x j E (uiu j )] 2 2 i ( xt ) i j
由于
E (ut2 ) 2 , t 1, 2,......, n E (ui u j ) 0, i j
——根据假设(3)
1 2 ( x t X xt xt ut ) 2 xt
1 2 ( x t xt ut ) 2 xt
即
ˆ
x u x
t 2 t
t
两边取期望值,有:
x E ( u ˆ) E( x
t 2 t t
)
——假设(4) ——假设(1)
X X
ˆ 是 的无偏估计量。 即
ˆ 和 二. ˆ 的方差
ˆ ) E{[ ˆ E( ˆ )]2 } Var ( ˆ )2 E (
——根据定义
——由无偏性
ˆ) E (
x u ˆ 由上段结果: x x u ˆ 即 x
从而
x Y ˆ x
2 t
t t
x ( X x
t 2 t
t
ut )
ˆ
x Y x
2 t
t t
x ( X x
t 2 t
t
ut )
1 ( xt xt X t xt ut ) 2 xt 1 ( xt X t xt ut ) 2 xt
此二式称为正规方程。解此二方程,得:
(3) (4)
ˆ
( X X )(Y Y ) x y (X X ) x
t t t 2 2 t t
t
(5) (6)
ˆX ˆ Y
Y 其中: Y
t
n xt X t X ,
,
X X n
t
样本均值 离差
y t Yt Y
因而
例2 设Y和X的5期观测值如下表所示,试估计方程 Yt = + Xt + ut
序号
1 2 3 4 5
Yt Xt
14 10
18 20
23 30
25 40
30 50
解:我们采用列表法计算。计算过程如下:
Yt
1 2 3 4 5 Σ 14 18 23 25 30
Xt
10 20 30 40 50
双变量线性回归模型的统计假设
(1). E(ut) = 0, t= 1, 2, ...,n 即各期扰动项的均值(期望值)为0. (2). E(uiuj) = 0 i j 即各期扰动项互不相关. (3). E(ut2 ) = 2 , t= 1, 2, ...,n 即各期扰动项方差是一常数. (4). 解释变量Xt 为非随机量 即Xt的取值是确定的, 而不是随机的. (5). ut ~ N( 0, 2 ) , t= 1, 2, ...,n 即各期扰动项服从正态分布。
(2)E(uiuj) = 0, i≠j
即各期扰动项互不相关。也就是假定它们之间无 自相关或无序列相关。 实际上该假设等同于: cov( ui, uj) = 0, i≠j
这是因为:cov(ui, uj) = E{[ui - E(ui)][uj - E(uj)]} = E(uiuj) ——根据假设(1)
S S 0 ˆ ˆ
即
S ˆX ) 0 ˆ 2(1)(Yt t ˆ S ˆX ) 0 ˆ 2( X t )(Yt t ˆ
(1) (2)
整理,得:
ˆ X ˆ Y n t t ˆ X 2 ˆ X Y X t t t t
下面简单讨论一下上述假设条件。
(1)E(ut) = 0, t=1,2,…,n 即各期扰动项的均值(期望值)均为0。 均值为 0 的假设反映了这样一个事实:扰动项被假 定为对因变量的那些不能列为模型主要部分的微小影 响。没有理由相信这样一些影响会以一种系统的方式 使因变量增加或减小。因此扰动项均值为 0 的假设是 合理的。