古扎拉蒂《计量经济学基础》第2章
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
国内外经典教材名师讲堂
古扎拉蒂 《计量经济学基础》
第二章 双变量回归分析: 一些基本思想
主讲老师:李庆海
2.1 本章要点
●一些基本概念 ●总体回归函数 ●“线性”函数的定义 ●PRF的随机设定 ●随机干扰项的意义
●样本回归函数
2.2 重难点导学
一、一些基本概念
条件概率:给定X的Y的概率,记为P(Y|X)。
条件均值(如图2-1所示)
Y
条件均值
149 101 65
E(Y|Xi)
80
140 220
X
图2-1 总体回归线
总体回归曲线
思考:给定一个X,就对应一个(惟一 的)E(Y|X)。因此,(X,E(Y|X))可以 表示成平面上的一个点。 总体回归曲线(Popular Regression Curve):Y的条件均值的轨迹。即Y对X的回 归。 总体回归曲线的几何意义:当解释变量给 定值时因变量的条件期望值的轨迹。
已知给定X=1,Y取5个不同的值:1、2、3、4、
5。 问:Y取每个值的概率有多大?
古典概率模型:取每个值的概率相等。因此有:
P(Y=1|X=1)=1/5; P(Y=2|X=1)=1/5;
P(Y=3|X=1)=1/5;
P(Y=4|X=1)=1/5; P(Y=5|X=1)=1/5;
词总是指对参数为线性的一种回归(即参数
只以它的1次方出现)。
Y= 1+2X+u, lnY= 1+2lnX+u 是线性的!
Y= 1ln(2X+u)不是线性的!
模型对参数为线性?
模型对变量为线性?
是
不是
是
LRM
LRM
不是
NLRM
NLRM
LRM=线性回归模型; NLRM =非线性回归模型
线性于参数的模型(如图2-3所示)。 图2-3 线性于参数的函数
四、PRF的随机设定 随着家庭收入的增加,家庭消费支出平均 地说也增加。但是,对某一特定家庭来说,消 费支出与其(固定的)收入水平的关系怎样? 答案并不是绝对的。
例如,一个收入100美元的家庭,支出为 65美元,而一个收入只有80美元的家庭,支出 却为75美元。
一些基本定义 事实上,给定收入Xi,个别家庭的支出Yi 围绕在条件均值E(Y|Xi)附近。 将个别的Yi 围绕其期望值的离差(Deviation)表述如下:
Yi ˆ1 ˆ2 X i uˆ i
来 估 计 PRF:
Yi 1 2 X i ui
(2)样本回归线的几何意义
Y
SRF: Yˆi ˆ1 ˆ2 Xi
Yi
ui
ûi
PRF: E(Y|Xi ) 1 2 X i Ŷi
E(Y|Xi)
E(Y|Xi)
Xi
X
样本回归线的几何意义
SRF是PRF的一个近似估计
条件期望
问:给定X,Y可以取不同的值,那么,这 些值平均起来是多少? 条件期望(conditional Expectation):给 定X的Y的期望值,记为E(Y|Xi),读作“给定 X值下Y的期望值” 例如,E(Y|X=1)=1×1/5+2×1/5+ 3×1/5+4×1/5+5×1/5=2 注:条件均值=条件期望,称条件期望是为 了表示它是总体的平均值。习惯上,看到“期望” 一般指的是总体的平均值;看到“均值”一般指 的是样本的平均值。应该注意区分二者的含义。
E(Y|Xi)=f(Xi) (1) 当PRF的函数形式为线性函数,则有,
E(Y|Xi)=1+2Xi
(2)
其中1和2为未知而固定的参数,称为回归
系数。1和2也分别称为截距和斜率系数。
上述方程也称为线性总体回归函数。
三、线性函数的概念
“线性” 可作为两种解释:对变量的线
性和对参数的线性。本讲义中“线性”回归一
六、样本回归函数(SRF) 两个随机样本,对应给定的每个Xi只有一 个Y值,问:能从样本数据中估计出PRF吗?
样本数据一
样本数据二
X
Y
80
70
100
65
120
90
220
150
X
Y
80
55
100
88
120
90
220
175
样本回归线与总体回归线
比较两条样本回归线SRF1和SRF2(假定PRF 是直线),问哪条样本线代表“真实”的总体回
问:怎样构造SRF能使得ˆi尽可能 “逼近”真实的系数i呢?
●一些基本概念 ●总体回归函数 ●“线性”函数的定义 ●PRF的随机设定 ●面 7.错误的函数形式。即使有了在理论上解释某 种现象的正确变量,并且能获得这些变量的数据, 却常常不知道回归子和回归元之间的函数关系式是 什么形式。 消费支出是收入的线性(对变量而言)函数抑 或非线性(对变量而言)函数?如果属于前者,Yi= β1+β2Xi+ui就是Y和X之间的适当函数关系式;但如 果属于后者,Yi=β1+β2Xi+β3Xi2+ui也许才是正确 的函数形式。在双变量模型中,人们往往能通过散 点图来判断二者关系的函数形式。而在多变量回归 模型中,由于无法从图形上想象一个多维的散点图 ,要决定适当的函数形式就更不容易。
七个方面 1.理论的含糊性。即使有决定Y的行为理 论,常常也是不完备的。可以肯定每周收入X 影响每周消费支出Y。但还有什么影响Y的其他 变量呢,不是一无所知,就是不太确定。因此 不妨用ui作为模型所排除或忽略的全部变量的 替代变量。
2.数据的欠缺。即使明知被忽略变量中的 一些变量,并因而考虑用一个多元回归而不是 一个简单回归,却不一定能得到关于这些变量 的数量信息。在经验研究中,人们得不到他们 最想要的数据是司空见惯的事。例如,在原理 上,除收入外,还可引进财富作为家庭消费支 出的解释变量。但不幸的是,一般是得不到关 于家庭财富的信息的。因此,不得不把财富变 量从模型中割舍掉。哪怕它在解释消费支出方 面有很强的理论重要性。
比较PRF和SRF P R F: E (Y |X i ) 1 2 X i Yi E (Y |X i ) ui 1 2 X i ui
S R F : Yˆi ˆ1 ˆ2 X i Yi Yˆi uˆi ˆ1 ˆ2 X i uˆi
其 中 uˆi是 残 差 项 ( r e s id u a l ) 回 归 分 析 的 主 要 目 的 是 根 据 SRF:
七个方面 6.节省原则。仿效简单性原则,想保持一 个尽可能简单的回归模型。如果能用两个或三 个变量就“基本上”解释了Y的行为,并且如 果理论完善或扎实的程度还没有达到足以提出 可包含进来的其他变量,那么为什么要引进更 多的变量呢?让ui代表所有的其他变量好了。当 然,不应该只为了保持回归模型简单而排除有 关的和重要的变量。
4.人类行为的内在随机性。即使成功地 把所有有关的变量都引进到模型中来,在个别 的Y中仍不免有一些“内在”的随机性,无论 花了多少力气都解释不了的。干扰项ui也许能 很好地反映这种随机性。
七个方面
5.糟糕的替代变量。虽然经典回归模型假定变 量Y和X能准确地观测,但实际上数据会受到测量误 差的干扰。 试看弗里德曼的著名的消费函数理论。他把持 久消费(YP)看作持久收入(Xp)的函数。但由于 这些变量不可直接观测,故实际上利用替代变量, 诸如可观测的当前消费(Y)和当前收入(X)。而 由于所观测的Y和X未必等于Yp和Xp,这里就有一个 测量误差的问题。这时干扰项u又可用来代表测量误 差。在后面的一章中将会看到,如果有这种误差, 回归系数β的估计会受到严重的影响。
3.核心变量与周边变量。假定在消费-收 入例子中,除了收入X1外,家庭的子女数X2、 性别X3、宗教X4、教育X5和地区X6也影响消费支 出。但很可能这些变量的全部或其中的一些, 合起来的影响是如此之小,充其量是一种非系 统的或随机的影响。从实际考虑以及从成本上 计算,把它们一一引入模型是划不来的。
ui=Yi-E(Y|Xi)或Yi=E(Y|Xi)+ui 其中, E(Y|Xi)是系统性成分或确定性 成分;ui随机或非系统性成分 随机扰动项:离差ui是一个不可观测的可 正可负的随机变量。
Yi=E(Y|Xi)+ui 当E(Y|Xi)是Xi的线性函数时:
Yi=1+ 2Xi+ui=E(Y|Xi)+ui
归线?如图2-4所示。
Y
SRF1
PRF
SRF2
X 图2-4 基于两个不同样本的回归线
(1)样本回归函数
SRF: Yˆi ˆ1 ˆ2 X i (相对于E(Y|Xi ) 1 2 X i )
其中Yˆi是E(Y|Xi )的估计量;
ˆ1是1的估计量; ˆ2是 2的 估 计 量 。
估计量(Estimator):一个估计量又称 统计量,是指一个规则、公式或方法,是用已 知的样本所提供的信息去估计总体参数。在应 用中,由估计量算出的数值称为估计值。
不同收入水平下支出的条件分布如图2-2所示。 图2-2 不同收入水平下支出的条件分布
二、总体回归函数的概念
因为每个Xi对应惟一的一个E(Y|Xi) ,所 以E(Y|Xi)是Xi的函数。将此函数称为:总体 回归函数
(PRF:Population Regression Function)
例子 一个家庭的消费支出,线性地依赖于家庭 的收入另加干扰项 Y1=55=1+2(80)+u1 Y2=60=1+2(80)+u2 Y3=65=1+2(80)+u3 Y4=70=1+2(80)+u4 Y5=75=1+2(80)+u5
五、 随机干扰项的意义 随机扰动项是从模型中省略下来的而又 集体地影响着Y的全部变量的替代物。一个值 得思考的问题即为: 为什么不把这些变量明显地引进到模型 中来?换句话说,为什么不构造一个含有尽 可能多个变量的复回归模型呢?理由是多方 面的:
古扎拉蒂 《计量经济学基础》
第二章 双变量回归分析: 一些基本思想
主讲老师:李庆海
2.1 本章要点
●一些基本概念 ●总体回归函数 ●“线性”函数的定义 ●PRF的随机设定 ●随机干扰项的意义
●样本回归函数
2.2 重难点导学
一、一些基本概念
条件概率:给定X的Y的概率,记为P(Y|X)。
条件均值(如图2-1所示)
Y
条件均值
149 101 65
E(Y|Xi)
80
140 220
X
图2-1 总体回归线
总体回归曲线
思考:给定一个X,就对应一个(惟一 的)E(Y|X)。因此,(X,E(Y|X))可以 表示成平面上的一个点。 总体回归曲线(Popular Regression Curve):Y的条件均值的轨迹。即Y对X的回 归。 总体回归曲线的几何意义:当解释变量给 定值时因变量的条件期望值的轨迹。
已知给定X=1,Y取5个不同的值:1、2、3、4、
5。 问:Y取每个值的概率有多大?
古典概率模型:取每个值的概率相等。因此有:
P(Y=1|X=1)=1/5; P(Y=2|X=1)=1/5;
P(Y=3|X=1)=1/5;
P(Y=4|X=1)=1/5; P(Y=5|X=1)=1/5;
词总是指对参数为线性的一种回归(即参数
只以它的1次方出现)。
Y= 1+2X+u, lnY= 1+2lnX+u 是线性的!
Y= 1ln(2X+u)不是线性的!
模型对参数为线性?
模型对变量为线性?
是
不是
是
LRM
LRM
不是
NLRM
NLRM
LRM=线性回归模型; NLRM =非线性回归模型
线性于参数的模型(如图2-3所示)。 图2-3 线性于参数的函数
四、PRF的随机设定 随着家庭收入的增加,家庭消费支出平均 地说也增加。但是,对某一特定家庭来说,消 费支出与其(固定的)收入水平的关系怎样? 答案并不是绝对的。
例如,一个收入100美元的家庭,支出为 65美元,而一个收入只有80美元的家庭,支出 却为75美元。
一些基本定义 事实上,给定收入Xi,个别家庭的支出Yi 围绕在条件均值E(Y|Xi)附近。 将个别的Yi 围绕其期望值的离差(Deviation)表述如下:
Yi ˆ1 ˆ2 X i uˆ i
来 估 计 PRF:
Yi 1 2 X i ui
(2)样本回归线的几何意义
Y
SRF: Yˆi ˆ1 ˆ2 Xi
Yi
ui
ûi
PRF: E(Y|Xi ) 1 2 X i Ŷi
E(Y|Xi)
E(Y|Xi)
Xi
X
样本回归线的几何意义
SRF是PRF的一个近似估计
条件期望
问:给定X,Y可以取不同的值,那么,这 些值平均起来是多少? 条件期望(conditional Expectation):给 定X的Y的期望值,记为E(Y|Xi),读作“给定 X值下Y的期望值” 例如,E(Y|X=1)=1×1/5+2×1/5+ 3×1/5+4×1/5+5×1/5=2 注:条件均值=条件期望,称条件期望是为 了表示它是总体的平均值。习惯上,看到“期望” 一般指的是总体的平均值;看到“均值”一般指 的是样本的平均值。应该注意区分二者的含义。
E(Y|Xi)=f(Xi) (1) 当PRF的函数形式为线性函数,则有,
E(Y|Xi)=1+2Xi
(2)
其中1和2为未知而固定的参数,称为回归
系数。1和2也分别称为截距和斜率系数。
上述方程也称为线性总体回归函数。
三、线性函数的概念
“线性” 可作为两种解释:对变量的线
性和对参数的线性。本讲义中“线性”回归一
六、样本回归函数(SRF) 两个随机样本,对应给定的每个Xi只有一 个Y值,问:能从样本数据中估计出PRF吗?
样本数据一
样本数据二
X
Y
80
70
100
65
120
90
220
150
X
Y
80
55
100
88
120
90
220
175
样本回归线与总体回归线
比较两条样本回归线SRF1和SRF2(假定PRF 是直线),问哪条样本线代表“真实”的总体回
问:怎样构造SRF能使得ˆi尽可能 “逼近”真实的系数i呢?
●一些基本概念 ●总体回归函数 ●“线性”函数的定义 ●PRF的随机设定 ●面 7.错误的函数形式。即使有了在理论上解释某 种现象的正确变量,并且能获得这些变量的数据, 却常常不知道回归子和回归元之间的函数关系式是 什么形式。 消费支出是收入的线性(对变量而言)函数抑 或非线性(对变量而言)函数?如果属于前者,Yi= β1+β2Xi+ui就是Y和X之间的适当函数关系式;但如 果属于后者,Yi=β1+β2Xi+β3Xi2+ui也许才是正确 的函数形式。在双变量模型中,人们往往能通过散 点图来判断二者关系的函数形式。而在多变量回归 模型中,由于无法从图形上想象一个多维的散点图 ,要决定适当的函数形式就更不容易。
七个方面 1.理论的含糊性。即使有决定Y的行为理 论,常常也是不完备的。可以肯定每周收入X 影响每周消费支出Y。但还有什么影响Y的其他 变量呢,不是一无所知,就是不太确定。因此 不妨用ui作为模型所排除或忽略的全部变量的 替代变量。
2.数据的欠缺。即使明知被忽略变量中的 一些变量,并因而考虑用一个多元回归而不是 一个简单回归,却不一定能得到关于这些变量 的数量信息。在经验研究中,人们得不到他们 最想要的数据是司空见惯的事。例如,在原理 上,除收入外,还可引进财富作为家庭消费支 出的解释变量。但不幸的是,一般是得不到关 于家庭财富的信息的。因此,不得不把财富变 量从模型中割舍掉。哪怕它在解释消费支出方 面有很强的理论重要性。
比较PRF和SRF P R F: E (Y |X i ) 1 2 X i Yi E (Y |X i ) ui 1 2 X i ui
S R F : Yˆi ˆ1 ˆ2 X i Yi Yˆi uˆi ˆ1 ˆ2 X i uˆi
其 中 uˆi是 残 差 项 ( r e s id u a l ) 回 归 分 析 的 主 要 目 的 是 根 据 SRF:
七个方面 6.节省原则。仿效简单性原则,想保持一 个尽可能简单的回归模型。如果能用两个或三 个变量就“基本上”解释了Y的行为,并且如 果理论完善或扎实的程度还没有达到足以提出 可包含进来的其他变量,那么为什么要引进更 多的变量呢?让ui代表所有的其他变量好了。当 然,不应该只为了保持回归模型简单而排除有 关的和重要的变量。
4.人类行为的内在随机性。即使成功地 把所有有关的变量都引进到模型中来,在个别 的Y中仍不免有一些“内在”的随机性,无论 花了多少力气都解释不了的。干扰项ui也许能 很好地反映这种随机性。
七个方面
5.糟糕的替代变量。虽然经典回归模型假定变 量Y和X能准确地观测,但实际上数据会受到测量误 差的干扰。 试看弗里德曼的著名的消费函数理论。他把持 久消费(YP)看作持久收入(Xp)的函数。但由于 这些变量不可直接观测,故实际上利用替代变量, 诸如可观测的当前消费(Y)和当前收入(X)。而 由于所观测的Y和X未必等于Yp和Xp,这里就有一个 测量误差的问题。这时干扰项u又可用来代表测量误 差。在后面的一章中将会看到,如果有这种误差, 回归系数β的估计会受到严重的影响。
3.核心变量与周边变量。假定在消费-收 入例子中,除了收入X1外,家庭的子女数X2、 性别X3、宗教X4、教育X5和地区X6也影响消费支 出。但很可能这些变量的全部或其中的一些, 合起来的影响是如此之小,充其量是一种非系 统的或随机的影响。从实际考虑以及从成本上 计算,把它们一一引入模型是划不来的。
ui=Yi-E(Y|Xi)或Yi=E(Y|Xi)+ui 其中, E(Y|Xi)是系统性成分或确定性 成分;ui随机或非系统性成分 随机扰动项:离差ui是一个不可观测的可 正可负的随机变量。
Yi=E(Y|Xi)+ui 当E(Y|Xi)是Xi的线性函数时:
Yi=1+ 2Xi+ui=E(Y|Xi)+ui
归线?如图2-4所示。
Y
SRF1
PRF
SRF2
X 图2-4 基于两个不同样本的回归线
(1)样本回归函数
SRF: Yˆi ˆ1 ˆ2 X i (相对于E(Y|Xi ) 1 2 X i )
其中Yˆi是E(Y|Xi )的估计量;
ˆ1是1的估计量; ˆ2是 2的 估 计 量 。
估计量(Estimator):一个估计量又称 统计量,是指一个规则、公式或方法,是用已 知的样本所提供的信息去估计总体参数。在应 用中,由估计量算出的数值称为估计值。
不同收入水平下支出的条件分布如图2-2所示。 图2-2 不同收入水平下支出的条件分布
二、总体回归函数的概念
因为每个Xi对应惟一的一个E(Y|Xi) ,所 以E(Y|Xi)是Xi的函数。将此函数称为:总体 回归函数
(PRF:Population Regression Function)
例子 一个家庭的消费支出,线性地依赖于家庭 的收入另加干扰项 Y1=55=1+2(80)+u1 Y2=60=1+2(80)+u2 Y3=65=1+2(80)+u3 Y4=70=1+2(80)+u4 Y5=75=1+2(80)+u5
五、 随机干扰项的意义 随机扰动项是从模型中省略下来的而又 集体地影响着Y的全部变量的替代物。一个值 得思考的问题即为: 为什么不把这些变量明显地引进到模型 中来?换句话说,为什么不构造一个含有尽 可能多个变量的复回归模型呢?理由是多方 面的: