2一元线性回归模型

合集下载

计量经济学的2.2 一元线性回归模型的参数估计

计量经济学的2.2 一元线性回归模型的参数估计

基于样本数据,所得到的总体回归函数的一个估 计函数称为样本回归函数。
问题:当我们设定总体回归模型的函数形式后, 如何通过样本数据得到总体回归函数的一个估计 (即样本回归函数)?--参数估计问题
E (Y | X i ) 0 1 X i
ˆ ˆ ˆ Yi f ( X i ) 0 1 X i
Xi确定
作此假设的理由:当我们把PRF表述为 时,我们假定了X和u(后者代表所有被省略的变量的影 响)对Y有各自的(并且可加的)影响。但若X和u是相关 25 的,就不可能评估它们各自对Y的影响。
线性回归模型的基本假设(4)
假设4、服从零均值、同方差、零协方差的正态分布 i~N(0, 2 ) i=1,2, …,n 意为:ui服从正态分布且相互独立。因为对两个正态 分布的变量来说,零协方差或零相关意为这两个变量 独立。 作该假设的理由:i代表回归模型中末明显引进的许多解释
Yi 0 1 X i i
i=1,2,…,n
Y为被解释变量,X为解释变量,0与1为待估 参数, 为随机干扰项
3
回归分析的主要目的是要通过样本回归函 数(模型)SRF尽可能准确地估计总体回归函 数(模型)PRF。
ˆ ˆ ˆ Yi 0 1 X i
ˆ ˆ ˆ Yi 0 1 X i ui
同方差假设表明:对应于不同X值的全部Y值具有同 样的重要性。
22
线性回归模型的基本假设(2-3)
假设2、随机误差项具有零均值、同方差和不自相关 性(不序列相关): (2.3) 不自相关: Cov(i, j|Xi, Xj)=0 i≠j i,j= 1,2, …,n 或记为 Cov(i, j)=0 i≠j i,j= 1,2, …,n 意为:相关系数为0, i, j非线性相关。 几何意义如下

计量经济学第2章 一元线性回归模型

计量经济学第2章 一元线性回归模型

15
~ ~ • 因为 2是β2的线性无偏估计,因此根据线性性, 2 ~ 可以写成下列形式: 2 CiYi
• 其中αi是线性组合的系数,为确定性的数值。则有
E ( 2 ) E[ Ci ( 1 2 X i ui )]
E[ 1 Ci 2 Ci X i Ci ui ]
6
ˆ ˆ X )2 ] ˆ , ˆ ) [ (Yi Q( 1 2 i 1 2 ˆ ˆ X 2 Yi 1 2 i ˆ ˆ 1 1 2 ˆ ˆ ˆ ˆ [ ( Y X ) ] 1 2 i Q( 1 , 2 ) i ˆ ˆ X X 2 Yi 1 2 i i ˆ ˆ 2 2
16
~
i
i
• 因此 ~ 2 CiYi 1 Ci 2 Ci X i Ci ui 2 Ci ui
• 再计算方差Var( ) 2 ,得 ~ ~ ~ 2 ~ Var ( 2 ) E[ 2 E ( 2 )] E ( 2 2 ) 2
C E (ui )
2 i 2 i
i
~
i
i
i
i
E ( 2 Ci ui 2 ) 2 E ( Ci ui ) 2
i
2 u
C
i
2 i
i
~ ˆ)的大小,可以对上述表达式做一 • 为了比较Var( ) 和 Var( 2 2
些处理: ~ 2 2 2 2 Var ( 2 ) u C ( C b b ) i u i i i
8
• 2.几个常用的结果
• (1) • (2) • (3) • (4)

2.2 一元线性回归模型的参数估计

2.2 一元线性回归模型的参数估计

于是,Y的概率函数为
P(Yi ) = 1
− 1 2σ
2
ˆ ˆ (Yi − β 0 − β1 X i ) 2
σ 2π
e
(i=1,2,…n)
4/29/2012
14
因为Yi是相互独立的,所以的所有样本观测值的联 合概率,也即或然函数(likelihood function) 或然函数(likelihood function)为: 或然函数
§2.2 一元线性回归模型的参数估计
一、一元线性回归模型的基本假设 二、参数的普通最小二乘估计(OLS) 参数的普通最小二乘估计(OLS) 参数估计的最大或然法(ML) 三、参数估计的最大或然法(ML) * 四、最小二乘估计量的性质 五、参数估计量的概率分布及随机干扰项方差的估计
4/29/2012
1
640000 352836 1210000 407044 1960000 1258884 2890000 1334025 4000000 1982464 5290000 2544025 6760000 3876961 8410000 4318084 10240000 6682225 12250000 6400900 53650000 29157448
4/29/2012
-973 1314090 1822500 947508 -929 975870 1102500 863784 -445 334050 562500 198381 -412 185580 202500 170074 -159 23910 22500 25408 28 4140 22500 762 402 180720 202500 161283 511 382950 562500 260712 1018 1068480 1102500 1035510 963 1299510 1822500 926599 5769300 7425000 4590020

2 一元线性回归模型

2 一元线性回归模型


4、回归分析

(1)“回归”一词的古典意义 英国生物学家F.高尔顿(Francis 遗传学研究中首先提出的。
Galton)在
(2)“回归”一词的现代意义: 回归分析是研究一个被解释变量(或因变量)对一 个或多个解释变量(或自变量)数量依赖关系的数 学分析方法。 目的:通过解释变量的已知值或设定值,去估计被 解释变量的平均值,或分析解释变量变动对被解释 变量产生的影响。
相关关系:非确定现象随机变量间的关系。
函数关系:
圆面积 f , 半径 半径2
欧姆定律(电流C=V/k, V为电压)
相关关系: 农作物产量 f 气温, 降雨量, 阳光, 施肥量
高档消费品的销售量与城镇居民收入之间的关 系 储蓄额与居民收入之间的关系 广告支出与商品销售额 工业增加值与能源消耗量 数学成绩与统计学成绩 „„
问:能否从该样本估计总体回归函数PRF?
可支配收入X 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 消费支出Y 888 1121 1340 1650 2179 2210 2398 2650 3021 3288
回答:of course
该样本的散点图: 样本散点图近 似于一条直线,画 一条直线以尽可能 地拟合该散点图, 由于样本取自总体, 该线可以近似地代 表总体回归线。该 线称为样本回归线
上例
ui Yi -E(Y Xi ) Yi 0 1X i 总体回归函数 Yi 0 1X i ui 个别值表现形式
引入随机扰动项的主要原因: 1、作为未知影响因素的代表
2、作为无法取得数据的已知因素的代表 3、作为众多细小影响因素的综合代表 4、模型的设定误差 5、变量的观测误差 6、变量的内在随机性

计量经济学第二篇一元线性回归模型

计量经济学第二篇一元线性回归模型

第二章 一元线性回归模型2.1 一元线性回归模型的基本假定有一元线性回归模型(统计模型)如下, y t = β0 + β1 x t + u t上式表示变量y t 和x t 之间的真实关系。

其中y t 称被解释变量(因变量),x t 称解释变量(自变量),u t 称随机误差项,β0称常数项,β1称回归系数(通常未知)。

上模型可以分为两部分。

(1)回归函数部分,E(y t ) = β0 + β1 x t ,(2)随机部分,u t 。

图2.1 真实的回归直线这种模型可以赋予各种实际意义,居民收入与支出的关系;商品价格与供给量的关系;企业产量与库存的关系;身高与体重的关系等。

以收入与支出的关系为例。

假设固定对一个家庭进行观察,随着收入水平的不同,与支出呈线性函数关系。

但实际上数据来自各个家庭,来自同一收入水平的家庭,受其他条件的影响,如家庭子女的多少、消费习惯等等,其出也不尽相同。

所以由数据得到的散点图不在一条直线上(不呈函数关系),而是散在直线周围,服从统计关系。

“线性”一词在这里有两重含义。

它一方面指被解释变量Y 与解释变量X 之间为线性关系,即另一方面也指被解释变量与参数0β、1β之间的线性关系,即。

1ty x β∂=∂,221ty β∂=∂0 ,1ty β∂=∂,2200ty β∂=∂2.1.2 随机误差项的性质随机误差项u t 中可能包括家庭人口数不同,消费习惯不同,不同地域的消费指数不同,不同家庭的外来收入不同等因素。

所以在经济问题上“控制其他因素不变”是不可能的。

随机误差项u t 正是计量模型与其它模型的区别所在,也是其优势所在,今后咱们的很多内容,都是围绕随机误差项u t 进行了。

回归模型的随机误差项中一般包括如下几项内容: (1)非重要解释变量的省略,(2)数学模型形式欠妥, (3)测量误差等,(4)随机误差(自然灾害、经济危机、人的偶然行为等)。

2.1.3 一元线性回归模型的基本假定通常线性回归函数E(y t ) = β0 + β1 x t 是观察不到的,利用样本得到的只是对E(y t ) =β0 + β1 x t 的估计,即对β0和β1的估计。

第二章经典单方程计量经济模型:一元线性回归模型

第二章经典单方程计量经济模型:一元线性回归模型

二、总体回归函数
例2.1:一个假想的社区由100户家庭组成,要研 究该社区每月家庭消费支出Y与每月家庭可支配收 入X的关系。
即如果知道了家庭的月收入,能否预测社区该类 家庭的平均月消费支出水平?
为达此目的,将该100户家庭依据每月可支配收入 划分为10组,以分析每一收入组的家庭消费支出。
每 月 家 庭 消 费 支 出 Y (元)
单方程计量经济学模型 理论与方法
Theory and Methodology of SingleEquation Econometric Model
第二章 经典单方程计量经济学模型: 一元线性回归模型
• 回归分析概述 • 一元线性回归模型的参数估计 • 一元线性回归模型检验 • 一元线性回归模型预测 • 实例
为了得到良好的估计量需要哪些条件?
2、无偏性,即估计量ˆ0 、 ˆ1 的均值(期望)等于总体回归
参数真值0 与1
证: ˆ1 kiYi ki (0 1 X i i ) 0 ki 1 ki X i ki i
易知 故
ki
xi 0 xi2
ki Xi 1
ˆ1 1 ki i
2、回归分析的基本概念
回归分析是研究一个变量关于另一个(些) 变量的统计依赖关系(因果关系X)的计算方法和 理论。
其用意:在于通过后者的已知或设定值,去 估计前者的总体均值。
回归分析主要内容包括: (1)根据样本观察值对 经济计量模型参数进行估计,求得回归方程;
(2)对回归方程、参数估计值进行显著性检验; (3)利用回归方程进行分析、评价及预测。
一、参数的普通最小二乘估计(OLS)
给定一组样本观测值(Xi, Yi)(i=1,2,…n)要 求样本回归函数尽可能好地拟合这组值.

第二章 一元线性回归模型 知识点

第二章 一元线性回归模型 知识点

第二章一元线性回归模型一、知识点列表二、关键词1、回归分析基本概念关键词:回归分析在计量经济学中,回归分析方法是研究某一变量关于另一(些)变量间数量依赖关系的一种方法,即通过后者观测值或预设值来估计或预测前者的(总体)均值。

回归的主要作用是用来描述自变量与因变量之间的数量关系,还能够基于自变量的取值变化对因变量的取值变化进行预测,也能够用来揭示自变量与因变量之间的因果关系关键词:解释变量、被解释变量影响被解释变量的因素或因子记为解释变量,结果变量被称为被解释变量。

2、回归模型的设定关键词:随机误差项(随机干扰项)不包含在模型中的解释变量和其他一些随机因素对被解释变量的总影响称为随机误差项。

产生随机误差项的原因主要有:(1)变量选择上的误差;(2)模型设定上的误差;(3)样本数据误差;(4)其他原因造成的误差。

关键词:残差项(residual )通过样本数据对回归模型中参数估计后,得到样本回归模型。

通过样本回归模型计算得到的样本估计值与样本实际值之差,称为残差项。

也可以认为残差项是随机误差项的估计值。

3、一元线性回归模型中对随机干扰项的假设 关键词:线性回归模型经典假设线性回归模型经典假设有5个,分别为:(1)回归模型的正确设立;(2)解释变量是确定性变量,并能够从样本中重复抽样取得;(3)解释变量的抽取随着样本容量的无限增加,其样本方差趋于非零有限常数;(4)给定被解释变量,随机误差项具有零均值,同方差和无序列相关性。

(5)随机误差项服从零均值、同方差的正态分布。

前四个假设也称为高斯马尔科夫假设。

4、最小二乘估计量的统计性质关键词:普通最小二乘法(Ordinary Least Squares ,OLS )普通最小二乘法是通过构造合适的样本回归函数,从而使得样本回归线上的点与真实的样本观测值点的“总体误差”最小,即:被解释变量的估计值与实际观测值之差的平方和最小。

ββ==---∑∑∑nn n222i i 01ii=111ˆˆmin =min ()=min ()i i i i u y y y x关键词:无偏性由于未知参数的估计量是一个随机变量,对于不同的样本有不同的估计量。

第2章一元线性回归模型

第2章一元线性回归模型
第二章
一元线性回归模型
回归分析是计量经济学的基础内容!
本章介绍一元线性回归模型,最小二乘估计方法及 其性质,参数估计的假设检验、预测等。
浙江财经大学 倪伟才
1
本章主要内容
2 .1 一元线性回归模型
2 .2 参数β0、β1的估计
2 .3 最小二乘估计的性质
2 .4 回归方程的显著性检验 2 .5 残差分析 2 .6 回归系数的区间估计
浙江财经大学 倪伟才 10
回归的术语
y的各种名称: 因变量(dependent variable)或被解释变量 (explained variable)或回归子(regressand)或内 生(endogenous); X的各种名称: 自变量(independent variable)或解释变量 (explanatory variable)或回归元(regressor)或外 生(exogenous) U的各种名称: 随机误差项或随机扰动项(stochastic error term, random disturbance term ): 表示其它因素的影响,是不可观测的随机误差!
浙江财经大学 倪伟才
9
2.1一元线性回归模型
由于两个变量y, x具有明显的线性关系,故考虑直 线方程y=0+1x(函数表达的是确定性关系,有缺 陷!) y=0+1x+u, 其中u表示除x外,影响y的其它一切 因素。 将y与x之间的关系用两部分来描述: a. 一部分0+1x ,由x的变化引起y变化; b.另一部分u ,除x外的其它一切因素引起y变化。 参数(parameters) 0 , 1 ; 0 称为回归常数(截距)(intercept, constant), 1称为回归斜率(slope)

计量经济学实验二 一元线性回归模型

计量经济学实验二 一元线性回归模型

实验二一元线性回归模型2.1 实验目的掌握一元线性回归模型的基本理论,一元线性回归模型的建立、估计、检验及预测的方法,以及相应的EViews软件操作方法。

2.2 实验内容建立中国消费函数模型。

以表2.1中国的收入与消费的总量数据为基础,建立中国消费函数的一元线性回归模型。

表2.1数据来源:2004年中国统计年鉴,中国统计出版社2.3 实验步骤2.3.1 散点相关图分析将表1.1的GDP设为变量X,总消费设为Y,建立变量X和Y的相关图,如图2.1所示。

可以看X和Y之间呈现良好的线性关系。

可以建立一元线性回归模型。

2.3.2 估计线性回归模型在数组窗口中点击Proc\Make Equation ,如果不需要重新确定方程中的变量或调整样本区间,可以直接点击OK 进行估计。

也可以在EViews 主窗口中点击Quick\Estimate Equation ,在弹出的方程设定框(见图2.2)内输入模型:Y C X 或 Y = C (1) + C (2) * X图2.2图2.3还可以通过在EViews 命令窗口中键入LS 命令来估计模型,其命令格式为:LS 被解释变量 C 解释变量系统将弹出一个窗口来显示有关估计结果(如图2.3 所示)。

因此,我国消费函数的估计式为:ˆY2329.4010.547*X =+St 1191.923 0.014899t 1.95 36.71R 2=0.99 s.e.=2091s.e .是回归函数的标准误差,即σˆ=)216(ˆ2-∑t u。

R 2是可决系数。

R 2 = 0.99,说明上式的拟合情况好,y t 变差的99%由变量x t 解释。

因为t = 36.71> t 0.05 (15) = 2.13,所以检验结果是拒绝原假设β1 = 0,即总消费和GDP 之间存在线性回归关系。

上述模型的经济解释是,GDP 每增长1 亿元,我国消费将总额将增加0.547亿元。

图2.42.3.3 残差图在估计方程的窗口选择View\ Actual, Fitted,Residual\Actual, Fitted,Residual Table,得到相应的残差图2.4。

2 一元线性回归模型

2 一元线性回归模型



负线性相关

不相关
正线性相关
3、常用的两种相关关系的分析方法 对变量间(不确定性的)相关关系(统计依赖关系)
的考察主要是通过相关分析(correlation analysis)或
回归分析(regression analysis)来完成的。
• ……
• E(Y|X=3500)=2585
• 问题4:收入X与平均消费支出E(Y|X)之 间是什么关系?如何用方程式来表现这两种 关系?
图形说明:平均来说,随着收入的增加,消费支出也
在线性增加。即每一个消费支出的(条件)期望均落
在一根正斜率的直线上。这条直线称为总体回归线。
3500
每 月 消 费 支 出 Y (元) 3000 2500 2000 1500 1000 500 0 500 1000 1500 2000 2500 3000 3500 4000 每月可支配收入X(元)
答:E(Y|X=800)=2420/4=561×1/4+ 594 ×1/4+ 627 ×1/4+ 638 ×1/4=605 • 知识点及注意点4: • 期望也称均值,描述一个随机变量的平均值 • 条件期望(条件均值):给定X的Y的期望值, 记为E(Y|X)。
• 对于每一个给定的X,都对应有且只有一个Y 的条件均值。 • E(Y|X=800)=561×1/4+ 594 ×1/4+ 627 ×1/4+ 638 ×1/4=605 • E(Y|X=1100)=825 • E(Y|X=1400)=1045
量。 • 记为
Y E (Y | X )
• 随机误差项主要包括下列因素(P27书中 六点综合为四点) –在解释变量中被忽略的因素的影响 P27; 说明:模型中被省略了的影响Y的那些 因素包含在随机扰动项中。

2.2 一元线性回归模型的基本假设

2.2 一元线性回归模型的基本假设

n→∞
(2.2.3)
变异性假设是为了通过X的变化来解释被解释变量Y的变化;非零 有限常数假设旨在排除时间序列数据出现持续上升或下降的变量作为 解释变量,因为这类数据不仅使大样本统计推断变得无效,而且往往 产生伪回归问题(也称虚假回归:P261,274,295)
三、对随机干扰项的假设 假设4: 随机干扰项具有给定X条件下的零均值、同方差和序列不相关性: (违背该假设则出现随机解释变量问题、异方差性和序列相关性, 分别在第4.4、4.1和4.2节分析) E(i|Xi)=0 (2.2.4) Var(i|Xi)=2 (2.2.5) Cov(i,j)=0 i≠j (2.2.6) 式(2.2.4)意味着的期望不随X变化而变化,且总为0,即与不相关; 该假设成立时也称X为外生解释变量,否则称X为内生解释变量。只有该 假设成立时,总体回归函数的随机形式(2.1.7)式才能等价于非随机形式 (2.1.4)式。 式(2.2.5)表明的方差不依赖于X的变化而变化,且为常数2。图2.2.1 根据期望迭代法则,式(2.2.4) 、(2.2.5),有 E(i)=0 (2.2.7) Var(i)=2 (2.2.8) 式(2.2.6)表明在给定解释变量任意两个不同值时,对应的不相关, 即序列不相关性。
因此要对这些假设进行检验。
以上假设都是针对普通最小二乘法的。在违背这 些基本假设的情况下,普通最小二乘法估计量就不再 是最佳线性无偏估计量,因此使用普通最小二乘法进 行估计已无多大意义。但模型本身还是可以估计的,
尤其是可以通过最大似然法等其它原理进行估计。
(练习题3)
补充思考题
1、一元线性回归模型有哪些基本假设(经典假设)?
(2.2.1) i=1,2,…,n (2.2.2)
Y为被解释变量,X为解释变量,0与1为待估 参数, 为随机干扰项。

第二章一元线性回归模型

第二章一元线性回归模型
2

(c)比较绝对值 t1 与 tα 2 的大小。若 t1 > tα ,则拒绝原假设,判 定 β1 ≠ 0 ,解释变量 x 解释功效显著;若 t1 < tα ,则接受原假设,
2
判定
, x β1 = 0 不是有效的解释变量。
§2.3 显著性检验
(三)一元线性回归模型示例 例2.1 y=JYL,x=DSCYCZZZL,
ˆ β1 = β1 + ∑
xi − x u 2 i ∑(xi − x)
ˆ Eβ0 = β0
ˆ Eβ1 = β1
OLS估计的统计性质 §2.2 OLS估计的统计性质
在一切线性无偏估计中, ˆ ˆ 3. 在一切线性无偏估计中, β0 , β1独具最小方差
1 x2 ˆ var(β0 ) =σ 2 ( + ) 2 n ∑(xi − x)
0 ≤ R2 ≤ 1
2 R2 = rxy
计算公式
ˆ β12 ∑(xi − x)2 2 R = ∑( yi − y)2
OLS估计的统计性质 §2.2 OLS估计的统计性质
(一)线性回归模型的基本假定:
假定1. 解释变量是确定性变量,不具有随机性 假定2. (零均值假定) 假定3. (同方差假定)
Eui = 0 , i = 1 ,2 ,L, n
y = β0 + β1x + u
yi = β0 + β1xi + ui
{yi , xi }
i =1 ,2 ,L, n
i =1 ,2 ,L, n
§2.1 普通最小平方估计
(一)普通最小平方估计(OLS) 普通最小平方估计 待定回归函数 残差 残差平方和 驻点条件
ˆ ˆ ˆ y = β0 + β1x

第二章 一元线性回归模型

第二章   一元线性回归模型

__
__
2
/n
★样本相关系数r是总体相关系数 的一致估计
相关系数有以下特点:
• • • • 相关系数的取值在-1与1之间。 (2)当r=0时,线性无关。 (3)若r>0 ,正相关,若r<0 ,负相关。 (4)当0<|r|<1时,存在一定的线性相关 关系, 越接近于1,相关程度越高。 • (5)当|r|=1时,表明x与y完全线性相关 (线性函数),若r=1,称x与y完全正相关; 若r=-1,称x与y完全负相关。 • 多个变量之间的线性相关程度,可用复相 关系数和偏相关系数去度量。
●假定解释变量X在重复抽样中取固定值。 但与扰动项u是不相关的。(从变量X角度看是外生的)
注意: 解释变量非随机在自然科学的实验研究中相对
Yi 1 2 X i ui
●假定解释变量X是非随机的,或者虽然X是随机的,
容易满足,经济领域中变量的观测是被动不可控的, X非随机的假定并不一定都满足。
E( y xi ) 0 1xi
11
• 可以看出,虽然每个家庭的消费支出存在差 异,但平均来说,家庭消费支出是随家庭可 支配收入的递增而递增的。当x取各种值时, y的条件均值的轨迹接近一条直线,该直线称 为y对x的回归直线。(回归曲线)。 • 把y的条件均值表示为x的某种函数,可写 为:
E( y xi ) 0 1xi
Var ( y xi ) 2
Cov( yi , y j ) 0
y | xi ~ N (0 1xi , )
2
22
第三节 参数估计
• 一、样本回归方程
• 对于
yi 0 1 xi ui
• 在满足古典假定下,两边求条件均值,得到总体 回归函数:

8.2.2一元线性回归模型的最小二乘估计课件(人教版)

8.2.2一元线性回归模型的最小二乘估计课件(人教版)
ෝ =0.839x +28.957,令
ෝ=x,则
通过经验回归方程
x=179.733,即当父亲身高为179.733cm时,儿子的平均身
高与父亲的身高一样.
对于响应变量Y , 通过视察得到的数据称为观测值 , 通
ෝ为预测值. 视察值减去预测值称为
过经验回归方程得到的
残差.
残差是随机误差的估计结果,通过对残差的分析可判
෡ 叫做b,a的最小二乘估计.
求得的,ෝ

ഥ); 与相关系数
易得: 经验回归直线必过样本中心(ഥ
,
r符号相同.
对于上表中的数据,利
用我们学过的公式可以计算出

=0.839
,ෝ
=28.957,求出儿
子身高Y关于父亲身高x的经验
回归方程为
ŷ 0.839 x 28.957
相应的经验回归直线如图所示.
n i =1
n i =1
n
n
Q(a,b ) = ( yi - bxi - a ) = [ yi - bxi - ( y - bx ) + ( y - bx ) - a ]
2
i =1
n
2
i =1
= [( yi y ) b( xi - x ) + ( y - bx ) - a ]
2
i =1
i =1
综上,当a)( y y )
i
i
i =1
.
n
( x - x)
2
i
i =1
ˆ
ˆ
a
=
y

bx
时, Q到达最小.
ˆ aˆ 称为Y 关于x 的经验回归方程,也称

第2章一元线性回归模型

第2章一元线性回归模型

布图上的点接近于一条曲线时,称为非线性相关。简单相关按
符号又可分为 正相关 (见图2.3.4 )、负相关 (见图2.3.8 )和零 相关 (见图2.3.6 )。两个变量趋于在同一个方向变化时,即同
增或同减,称为变量之间存在正相关;当两个变量趋于在相反
方向变化时,即当一个变量增加,另一个变量减少时,称为变 量之间存在负相关;当两个变量的变化相互没有关系时,称为
4、普通最小二乘法
为什么要使用OLS? (1)OLS的应用相对简便; (2)以最小化残差平方和为目标在理论很合理; (3)OLS估计量有很多有用的性质。 1)估计的回归线通过Y和X的均值。下列等式总是
ˆ ˆX 严格成立的:设下,可以证明,OLS是 “最优”的估计方法。
2.2.2 最小二乘估计量的性质
一个用于考察总体的估计量,可从如下几个方面考察其
优劣性: (1)线性。即它是否是另一个随机变量的线性函数;
(2)无偏性。即它的均值或期望是否等于总体的真实值;
(3)有效性。即它是否在所有的线性无偏估计量中具有 最小方差; (4)渐近无偏性。 即样本容量趋于无穷大时,它的均值 序列趋于总体的真值; (5)一致性。即样本容量趋于无穷大时,它是否依概率 收敛于总体的真值;
1.总变差的分解
ˆ b ˆX ˆ b Yt的估计值位于估计的回归线 Y t 0 1 t 上,Y围绕其均值的变异 (Y Y )可被分解为两部分:
ˆ Y ) (1) (Y t
ˆ) (2) (Yt Y t
样本回归函数:
3.相关系数检验
(1)变量相关的定义和分类
相关:指两个或两个以上变量间相互关系的程度或强度。
2 2 ˆ e ( Y Y ) i i OLS 最小化 i i 1 i 1

第2章 一元线性回归模型

第2章 一元线性回归模型

(regression analysis)来完成的
2020/2/6
中山学院经济与管理系
4
2.1 模型的建立及其假定条件
2 回归分析的概念 回归分析研究一个变量关于另一个(些)变量的
具体依赖关系的计算方法和理论。
其用意:在于通过后者的已知或设定值,去估计 (或)预测前者的(总体)均值。
2020/2/6
中山学院经济与管理系
5
2.1 模型的建立及其假定条件
回归分析的基本思想和方法以及“回归”名称的由来 英国统计学家高尔顿(F.Galton,1822-1911)和他
的学生皮尔逊(K.Pearson,1856-1936)在研究父母身高 与其子女身高的遗传问题时,观察了1078对夫妇,以每对 夫妇的平均身高作为自变量,而取他们的一个成年儿子的 身高作为因变量,将结果在平面直角坐标系上绘成散点图 ,发现趋势近乎一条直线,计算出的回归直线方程为:
二乘法(Ordinary least squares, OLS)给出的
判断标准是:二者之差的平方和最小
n
n
Q (Yi Yˆi )2 (Yi (ˆ0 ˆ1 X i )) 2
1
1
即在给定样本观测值之下,选择出 ˆ0、ˆ1能使 yi
, 之y?i差的平方和最小(即为使残差平方和最小)
(4)被解释变量的样本平均值等于其估计值的平均值
2020/2/6
中山学院经济与管理系
26
2.2 一元线性回归模型的参数估计
4 截距为零的一元线性回归模型的参数估计 截距为零的一元线性回归模型的一般形式为:
yi xi ui
这个模型只有一个参数 需要估计,其最小二乘估
计量的表达式为

2一元线性回归模型 (1)

2一元线性回归模型 (1)

1、利用下表给出的我国人均消费支出与人均可支配收入数据回答下列问题:(1)这是一个时间序列回归还是横截面序列回归?(2)建立回归方程;(3)如何解释斜率?(4)对参数进行显著性检验。

(5)如果某人可支配收入是1000元,求出该人的消费支出的点预测值。

(6)求出该人消费支出95℅置信水平的区间预测。

1998年我国城镇居民人均可支配收入与人均消费性支出单位:元2、下表给出了1988年9个工业国的名义利率(y)与通货膨胀(X)的数据:(1)以利率为纵轴,通货膨胀率为横轴作图。

(2)用OLS方法进行回归分析,写出求解步骤.。

(3)如果实际利率不变,则名义利率与通货膨胀率的关系如何?即在Y对X的回归中,斜率如何?3、假设某国的货币数量与国民收入的历史数据如下表所示:请回答以下问题:(1)做出散点图,然后估计货币数量y对国民收入x的回归方程,并把回归直线画在散点图上。

(2)如何解释回归系数的含义?(3)如果希望1997年国民收入达到15.0,那么应该把货币供应量定在什么水平上?4、改革开放以来,我国的国民经济取得了快速增长。

下表是我国1980年到1998年的国内生产总值和固定资产投资总额的数据关系。

估计两者之间的回归关系。

5、下表给出了美国30所知名学校的MBA学生1994年基本年薪(ASP),GPA分数(从1~4共四个等级),GMAT分数以及每年学费的数据。

(1)用一元线性回归模型分析GPA是否对ASP有影响?(2)用合适的回归模型分析GMAT分数是否与ASP有关系?(3)每年的学费与ASP有关吗?你是如何知道的?如果两变量之间正相关,是否意味着进最高费用的商业学校是有利的。

(4)你同意高学费的商业学校意味着高质量的MBA成绩吗?为什么?1994年MBA毕业生平均初职薪水。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
便得到:
E( y | x) 0 1x
总体回归函数(population regression function PRF)E( y | x) 0 1x ,是x的一个线性函数。
这样y就分成两部分, 0 1x 称为的系统部分;u称为非 系统部分。
样本回归函数
样本回归函数(sample regression function, SRF)
同方差性和异方差性
同方差性和异方差性
正(负)序列相关及零相关
最小二乘法的基本假定
假定6:ui和Xi的协方差为零。 cov(ui , Xi ) E[ui Eui ][ Xi EXi ] E[ui (Xi EXi )] E(ui Xi ) 0
假定7:观测次数n必须大于待估计的参数个数。 假定8:X值要有变异性。 假定9:正确地设定了回归模型。
可得 Y ˆ0 ˆ1X 。
(2)估计的Y(= Yˆi )均值等于实测的Y的均值,因为 Yˆi ˆ0 ˆ1Xi (Y ˆ1X ) ˆ1Xi Y ˆ1(Xi X )
等式两边对样本值求和再除以样本容量n得:Yˆ Y
(3)残差 uˆi 的均值为零。因为由最小二乘法得
2 (Yi ˆ0 ˆ1Xi ) 0
不会!
其均值的变异,称为解释平方和(Explained Sum of
Squares, ESS )。
uˆi2 (Yi Yˆi )2 为残差或未被解释的围绕回归线的Y值的
变异,称为残差平方和(Residual Sum of Squares,
RSS ).
TSS=ESS+RSS 这说明总变异由两部分组成:
定义 r2 ESS (Yˆi Y )2
TSS
(Yi Y )2
于是
r2
yˆi2 ˆ12 xi2
yi2
yi2
ˆ12
xi2 yi2
(上下同除n,
小本除n
1得)
ˆ12
S
2 x
S
2 y
由于ˆ1
xi yi ,故 r 2还可以表达成
xi2
r2 ( xi yi )2 xi2 yi2
几个例子
CEO的年薪与所在公司在过去三年里的平均股本回报率 (ROE)之间的关系的例子中:
salary 963.19118.501roe, R2 0.0132
美国众议院两党竞选的选举结果和竞选支出之间的关系的 例子中:
voteA 26.81 0.464shareA, R2 0.856
度量单位和函数形式
何为“一元”、“多元”?
一元回归分析(simple regression analysis):研究一 个变量对一个自变量的依赖关系,如消费支出对实际收 入的依赖。
多元回归分析( multiple regression analysis ):研究 一个变量对多于一个自变量的依赖关系,如农作物的收 成依赖于降雨、气温、阳光和施肥。
利用推导的结果,我们可以将ESS和RSS记为
ESS r2 TSS
RSS TSS ESS
r2 yi2
(1 r2 ) yi2
再考虑一下 r 2 的形式,你想到了什么?
r2 ( xi yi )2 xi2 yi2
令 r
xi yi
,r 称为相关系数。
xi2 yi2
r 的一些性质。(值域,对称性,与原点尺度无关等)
考察某个超市中容量为1升的可乐的售价与销量之间的 关系,尽管相同售价时销量并不一定相同,但是多次试 验后可以看出随价格增加销量减少的普遍规律。
画一“尽量靠近”所有散点的 曲线可以推测回归线是斜率为 负数的直线。
何为“回归”?
研究货币工资变化率和失业率的关系,右图中给出了历史 数据所表现的散点图
Yˆi ˆ0 ˆ1Xi
Yˆi 为 E(Y | Xi )的估计量
ˆ0 为 0 的估计量 ˆ1 为 1 的估计量
我们还可以把SRF表达成它的随机形式如下:
Yi ˆ0 ˆ1Xi uˆi
uˆi 表示(样本)残差项。
利用SRF的表达式,可将所观测到的Yi表达为:
Yi Yˆi uˆi
模型的基本假定
ˆ0
X
2 i
Yi
Xi
X iYi
n Xi2 ( Xi )2
Y ˆ1X
定义 xi Xi X 和 yi Yi Y ,从此以后我们将遵循一个 惯例:用小写字母表示对均值的离差。
用此记法我们有 ˆ1
xi yi xi2
回归线有下面一些性质:
(1)它通过Y和X的样本均值,因为由 ˆ0 Y ˆ1X
wage 0.9 0.54educ
根据1988年美国众议院173次两党竞选的选举结果和竞选 支出数据得到下面的OLS回归结果:
voteA 26.81 0.464shareA
几个例子
CEO的年薪与所在公司在过去三年里的平均股本回报率 (ROE)之间的关系,以1990年209位CEO的数据为样 本得到下面的OLS回归结果:
1
1
求出使得Q值最小的 0 和 1 的估计。
利用微积分的基本知识我们可以得到用于估计它们是两个 方程:
Yi nˆ0 ˆ1 X i
Yi Xi ˆ0
X i ˆ1
X
2 i
将两个方程联立解得
ˆ1
n n
X iYi Xi2 (
X i Yi Xi )2
( Xi X )(Yi Y ) (Xi X )2
在CEO年薪的例子中,我们选择的是用千美元来计算年 薪,样本回归函数为:
salary 963.19118.501roe
如果改用美元( salarydol )来计算年薪,样本回归函数 会是怎样的?
salarydol 96319118501roe 如果改用数值( roedec ),而不是百分数来计算净资产
salary 963.19118.501roe
其中roe的单位为百分数,即若ROE为8%则变量roe的取 值为8.
判定系数 r 2:“拟合优度”的一个度量
yi2 (Yi Y )2为实测的Y值围绕其均值的总变异,称为总
平方和(Total Sum of Squares, TSS)。
yˆi2 (Yˆi Yˆ )2 (Yˆi Y )2 ˆ12 xi2 为估计的Y值围绕
一元线性回归模型
南开大学数学科学学院 白晓棠
何为“回归”?
回归一词最先由弗朗西斯·高尔顿 (Francis Galton )引入。
高尔顿发现,虽然有个趋势——父母高, 儿女也高;父母矮儿女也矮,但是给定父 母的身高儿女的平均身高却趋向于或者 “回归”到全体人口的平均身高。
高尔顿的普遍回归定律(law of universal regression) 被他的朋友卡尔·皮尔逊证实了。
1、它是线性的,即它是一个随机变量,如回归模型中的 因变量Y的线性函数。
2、它是无偏的,即它的均值或期望值 E(ˆ1) 等于真实
值 1。
3、它是有效的,即它在所有这样的线性无偏估计量一类 中有最小方差。
最小二乘估计的精度或标准误差
最小二乘估计是样本数据的函数,估计量的可靠性如何?
用var表示方差,s表示标准差,则有
图中的曲线是把货币工 资变化率同失业率联系 起来的著名的菲利普斯 曲线(Phillips curve) 之一例。
这次的回归线是一条曲线。
统计关系与确定性关系
(1)确定关系 两个物体之间的引力与它们的质量的关系; 弹力与弹簧伸长量之间的关系 。 (2)统计关系 消费与收入的关系; 儿子身高与父亲身高的关系; 农作物收成对气温、降雨、阳光以及施肥的依赖关系。 我们这门课程主要研究的是统计关系!
var(ˆ1)
2
, xi2
s(ˆ1)
,
xi2
var(ˆ0 ) n
X
2 i
xi2
2
,
s(ˆ0)
n
X
2 i
xi2
.
2为 ui 的共同方差,可用下面的公式来估算:
ˆ 2 uˆi2 n2
几个例子
上面所讨论的工资与所受教育程度的关系,以1976年的 劳动力为总体,根据526个样本数据得到下面的OLS回归 结果:
普通最小二乘法(OLS)
给定一组样本观测值Xi, Yi(i=1,2,…n),要求样本回归 方程尽可能好地拟合这组值,即样本回归线上的点与真实 观测点的“总体误差”尽可能地小。
最小二乘法给出的标准是两者之差的平方和最小
n
n
Q (Yi Yˆi )2 = (Yi (ˆ0 ˆ1 X i ))2
收益率,样本回归函数会是怎样的?
salary 963.1911850.1roedec
度量单位和函数形式
若解释变量为超额净资产收益率( abroe ),且假定平
均净资产收益率为5%,样本回归函数为:
salary 1055.696 18.501abroe
R2会因为解释变量或被解释变量的度量单位或原点位置发 生改变而随之改变吗?
线性 非线性
几个一元线性回归的例子
假设大豆收成由以下模型决定 yield 0 1 fertilizer u
一个人的工资水平与他的可测教育水平及其他非观测因素 的关系
wage 0 1educ u
期末考试分数取决于出勤率和影响考试成绩的其他无法观 测因素 score 0 1attend u
下:
yˆiuˆi ˆ1 xiuˆi ˆ1 xi ( yi ˆ1xi ) ˆ1 xi yi ˆ12 xi2 ˆ12 xi2 ˆ12 xi2
0
(5)残差 uˆi 和 X i 不相关;就是说
uˆi Xi 0
因为用最小二乘法时要求:(
uˆi2 )
ˆ1
2
uˆi Xi 0
上面给出的参数的点估计,根据“概率论与数理统计”的 相关知识,我们自然想到用估计量的评价标准,评价一下 我们的结果。
相关文档
最新文档