计量经济学第2章 简单线性回归模型
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.1回归分析与回归函数
对回归的现代解释与古典意义有很大的不同 定义:是关于研究一个叫做被解释变量(Y)的变量
对另一个或多个叫做解释变量(X)的变量的依赖 关系,其用意在于通过后者的已知或设定值去估计 或预测前者的均值。其中“依赖关系”,反映在一 定的函数形式上:
注意: E(Y X ) F(X1, X2,, Xk )
1.1回归分析与回归函数
1855年,高尔顿发表《遗传的身高 向平均数方向的回归》一文,他和 他的学生通过观察1078对夫妇,以 每对夫妇的平均身高作为自变量, 取他们的一个成年儿子的身高作为 因变量,分析儿子身高与父母身高 之间的关系。 发现: 当父母越高或越矮时,子女的身高 会比一般儿童高或矮,但是,当父 母身高走向极端,子女的身高不会 象父母身高那样极端化,其身高要 比父母们的身高更接近平均身高, 即有“回归”到平均数去的趋势。
其中,μ为随机误差项(stochastic error)或随机扰动 项(stochastic disturbance ),表明除X之外影响Y的因素: 忽略无数可能事件的影响 测量误差
1.1回归分析与回归函数
例:假定E(Y|Xi)对X是线性的:
E(Y Xi ) 1 2 Xi 线性总体回归函数
-1.2 -0.8 -0.4 0.0 0.4 0.8 Nhomakorabea1.2 Y
因而,要进一步研究变量之间的相关关系,就需要学习回归 分析方法。
1.1回归分析与回归函数
二、回归分析
“回归”这个词最早由英国生物学家高尔顿在遗传学
中提出。
法兰西斯·高尔顿(1822.2.16-1911.1.17), 英国人类学家、生物统计学家、英国探险家、 优生学家、心理学家、差异心理学之父,也 是心理测量学上生理计量法的创始人,遗传 决定论的代表人物。 高尔顿平生著书15种,撰写各种学术论文220 篇,涉猎范围包括地理、天文、气象、物理、 机械、人类学、民族学、社会学、统计学、 教育学、医学、生理学、心理学、遗传学、 优生学、指纹学、照像术、登山术、音乐、 美术、宗教等,是一位百科全书式的学者。
1.1回归分析与回归函数
现实中,只能获得样本信息:
样本
1 2 3 4 5 6 7 8 9 10
可支配收入X 2000 2500 3000 3500 4000 4500 5000 5500 6000 6500
消费支出Y 1548 1814 2179 2485 2665 3050 3321 3650 4087 4265
4000 2037 2210 2325 2419 2522 2665 2799 2887 2913 3038 3167 3310 3510
2754
4500 2277 2388 2526 2681 2887 3050 3189 3353 3534 3710 3834
3039
5000 2469 2889 3090 3156 3300 3321 3654 3842 4074 4165
1915
3000 1631 1726 1786 1835 1885 1943 2037 2078 2179 2298 2316 2387 2498 2689 2092
每月家庭可支配收入X
3500 1843 1974 2006 2265 2367 2485 2515 2689 2713 2898 2923 3053 3187 3286 2586
2.2简单线性回归模型参数的估计
最小二乘法基本原理:残差平方和最小的准则
n
min ei2 i 1
总体回归模型 Yi 1 2 X i i (i 1,2,, N )
样本回归函数 Yˆi ˆ1 ˆ2 Xi (i 1,2,, N) 根据微积分中求极值的原理,要使残差平方和达到
X称为自变量(indepenmdent variable)、解释变量
(explanatory variable)等
1.1回归分析与回归函数
注意:研究Y对X的影响时,若μ中的其他因素保持
不变,则有Δμ=0,ΔY=β2ΔX
2
Y X
含义:保持其他因素不变时,X每增长一个单位,平 均来说会引起Y增长β2个单位(边际效应)。
注意: 由于一般很少用总体来分析问题,PRF函数形式一
般是经验方面的问题。 对于个体i来说,Yi可能会偏离条件均值E(Y|Xi)
1.1回归分析与回归函数
2.总体回归模型(PRM,population regression model)
Yi E(Y Xi ) i
确定性部分 非确定性部分
1.1回归分析与回归函数
研究实际问题时,能获得的往往时关于X和Y的一组 样本,因此只有通过样本信息找一条代表性好的样 本回归函数去估计推断总体回归函数。 注意: 抽样具有随机性,则估计量也具有随机性,用样 本回归线去推断总体回归线,需结合概率论与数理 统计方法; 经过样本点的线有无数条,找一条代表性好的样 本回归线,可采用最小二乘法。
1
为例,选取20个点。计算Y和X
之间的样本相关系数,发现相
关系数为0。
⑶只能研究两个变量之间的相
关关系。例如,要研究商品需
求量、价格与替代品价格之间
的关系,用相关系数就无法衡
量三者之间的关系。
⑷不能研究某个变量的变化对
其他变量的影响程度。
X
1.2 0.8 0.4 0.0 -0.4 -0.8 -1.2
1.1回归分析与回归函数
例:100个家庭构成的总体,研究收入和支出之间关系。
2000 1312 1340 1400 每 1548 月 1688 家 1738 庭 1800 消 1902 费 支 出 Y
E(Y|Xi) 1591
2500 1530 1619 1713 1750 1814 1985 2041 2186 2200 2312
1801年,意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷 神星。经过40天的跟踪观测后,由于谷神星运行至太阳背后,使 得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐 的观测数据开始寻找谷神星,但是根据大多数人计算的结果来寻 找谷神星都没有结果。时年24岁的高斯也计算了谷神星的轨道。 奥地利天文学家海因里希·奥尔伯斯根据高斯计算出来的轨道重 新发现了谷神星。 高斯使用的最小二乘法的方法发表于1809年他的著作《天体运动 论》中。 1829年,高斯提供了最小二乘法的优化效果强于其他方法的证 明,因此被称为高斯-莫卡夫定理。
高斯(1777年4月30日-1855年2月23 日),德国著名数学家、物理学家、天文 学家、大地测量学家。 3岁时,能指出父亲借债帐册上的错误 11岁时,发现了二项式定理 18岁时,发明了正十七边形的尺规作图 法,解决了两千多年来悬而未决的难题 21岁时,大学毕业 22岁时,获博士学位
2.2简单线性回归模型参数的估计
也可能是:
样本
1 2 3 4 5 6 7 8 9 10
可支配收入X 2000 2500 3000 3500 4000 4500 5000 5500 6000 6500
消费支出Y 1688 1750 2079 2367 2665 3189 3321 3802 4165 4345
也可能是:
样本
1 2 3 4 5 6 7 8 9 10
Yi E(Y Xi ) i
Yi 1 2 X i i
线性总体回归模型
其中,
参数β1、β2称为回归系数,又分别称为截距 (intercept)和斜率系数(slope coefficients);
Y称为因变量(depenmdent variable)、被解释变量
(explained variable)等
可支配收入X 3000 3500 3500 3500 4000 4500 5000 5000 5500 6000
消费支出Y 2179 2713 2367 2006 2037 2277 3654 4074 4087 3721
1.1回归分析与回归函数
4500 4000
(X j ,Yj )
3500
3000
1.1回归分析与回归函数
四、样本回归函数 样本回归线(SRF,sample regression function)
Yˆi ˆ1 ˆ2 Xi
其中: Yi ˆ1 ˆ2 Xi ei
Y hat是E(Y|Xi)的估计量 β1hat是β1的估计量 β2hat是β2的估计量 e为残差项(residual term),可看作是μ的估计量
ˆ XY ˆYX
GDP
GDP
1
XF 0.994
ZB 0.997
EX 0.889
XF 0.994
1 0.985 0.842
ZB 0.997 0.985
1 0.901
EX 0.889 0.842 0.901
1
⑵只能反映变量之间的线性 相关关系;
1.1回归分析与回归函数
例如:以
X
2 i
Yi2
3396
4500 2924 3338 3650 3802 4087 4298 4312 4413
3853
6000 3515 3721 3865 4026 4165 4380 4580
4036
6500 3521 3954 4108 4345 4812
4148
1.1回归分析与回归函数
6000
(X j ,Yj )
5000
i E(Y X j )
4000
3000
2000
1000
0 1000
2000
3000
4000
5000
6000
7000
总体回归函数 E(Y Xi ) f (Xi ) 1 2 Xi
i Yi E(Y X i )
总体回归模型 Yi E(Y Xi ) i 1 2 Xi i
第二章 简单线性回归模型
2.1 回归分析与回归函数 2.2 简单线性回归模型参数的估计 2.3 拟合优度的度量 2.4 回归系数的区间估计和假设检验 2.5 回归模型预测
2.1回归分析与回归函数
一、相关系数(Correlation coefficient)
总 体
XY
cov(X ,Y ) D( X ) D(Y )
绝对值越接近1,表明变量之间线性相关程度越高。
1.1回归分析与回归函数
例如:衡量GDP、最终消费支 出、资本形成总额和净出口的 相关关系,选取1978-2007年 我国的具体数据,计算样本相 关系数(如表)。 可见,GDP与资本形成总额线 性相关程度最高,最终消费支 出次之。 相关系数计算起来比较简单, 但存在一些问题: ⑴不能反映变量之间的因果关 系;
虽然回归分析研究一个变量对另一个(些)变量依 赖关系,但它并不一定意味着因果关系。
回归分析研究具有非确定性关系的变量。
1.1回归分析与回归函数
三、总体回归模型 1.总体回归函数(PRF,population regression function)
E(Y Xi ) F(Xi )
表明:在给定Xi下Y分布的均值与Xi有函数关系,或Y 的均值怎样随X而变的。
2500
2000
1500
1000
500
0 1000 2000 3000 4000 5000 6000 7000
Yˆi ˆ1 ˆ2 Xi
样本回归函数Yj Yˆj e j
Yj Yˆj ej ˆ1 ˆ2 X j
1.1回归分析与回归函数
总体回归线和样本回归线
6000
最小,估计量应满足以下条件:
n
n
min ei min ei2
i 1
i 1
n
min (Yi ˆ1 ˆ 2X i )2 i 1
样 ˆ 本
n
( X i X )(Yi Y )
i 1
n
n
( ( X i X )2 )( (Yi Y )2 )
i 1
i 1
特点:
介于[-1,1]之间 等于1/-1,表明变量之间存在完全正/负相关; 等于0,表明变量之间不存在线性相关关系; 在(-1,0)或(0,1)之间,表明变量存在一定的相关关 系;
5000
4000 3000 2000
总体 样本 线性 (总体) 线性 (样本)
1000
0 1000
2000
3000
4000
5000
6000
7000
2.2简单线性回归模型参数的估计
一、普通最小二乘法 普通最小二乘法(OLS,ordinary least squares estimator) 较早由德国数学家高斯提出