第三章 一元线性回归模型
第三章 一元线性回归模型
第三章 一元线性回归模型一、预备知识(一)相关概念对于一个双变量总体,若由基础理论,变量和变量之间存在因果),(i i x y x y 关系,或的变异可用来解释的变异。
为检验两变量间因果关系是否存在、x y 度量自变量对因变量影响的强弱与显著性以及利用解释变量去预测因变量x y x ,引入一元回归分析这一工具。
y 将给定条件下的均值i x i yi i i x x y E 10)|(ββ+=(3.1)定义为总体回归函数(PopulationRegressionFunction,PRF )。
定义为误差项(errorterm ),记为,即,这样)|(i i i x y E y -i μ)|(i i i i x y E y -=μ,或i i i i x y E y μ+=)|(i i i x y μββ++=10(3.2)(3.2)式称为总体回归模型或者随机总体回归函数。
其中,称为解释变量x (explanatory variable )或自变量(independent variable );称为被解释y 变量(explained variable )或因变量(dependent variable );误差项解释μ了因变量的变动中不能完全被自变量所解释的部分。
误差项的构成包括以下四个部分:(1)未纳入模型变量的影响(2)数据的测量误差(3)基础理论方程具有与回归方程不同的函数形式,比如自变量与因变量之间可能是非线性关系(4)纯随机和不可预料的事件。
在总体回归模型(3.2)中参数是未知的,是不可观察的,统计计10,ββi μ量分析的目标之一就是估计模型的未知参数。
给定一组随机样本,对(3.1)式进行估计,若的估计量分别记n i y x i i ,,2,1),,( =10,),|(ββi i x y E 为,则定义3.3式为样本回归函数^1^0^,,ββi y ()i i x y ^1^0^ββ+=n i ,,2,1 =(3.3)注意,样本回归函数随着样本的不同而不同,也就是说是随机变量,^1^0,ββ它们的随机性是由于的随机性(同一个可能对应不同的)与的变异共i y i x i y x 同引起的。
第三章 一元线性回归模型
第三章一元线性回归模型第一节一元线性回归模型及其基本假设一元线性回归模型第二章回归分析的基本思想指出,由于总体实际上是未知的,必须根据样本回归模型估计总体回归模型,回归分析的目的就是尽量使得样本回归模型接近总体回归模型,那么采取什么方法估计样本回归模型才使得估计出的样本回归模型是总体回归模型的一个较好估计值呢?这里包括两个问题:一是采用什么方法估计样本回归模型;二是怎样验证估计出的样本回归模型是总体回归模型的一个较好估计值。
这些将在接下来的内容中讲到。
这一章介绍最简单的一元线性回归模型,下一章再扩展到多元线性回归模型。
一元线性回归模型及其基本假设一、一元线性回归模型的定义一元线性回归模型是最简单的计量经济学模型,在该一元模型中,仅仅只含有一个自变量,其一般形式为:yi = β0 + β1xi + μi(3.1.1)其中yi是因变量,xi是自变量,β0、β1是回归参数,μi是随机项。
由于式(3.1.1)是对总体而言的,也称为总体回归模型。
随机项μ代表未被考虑到模型中而又对被解释变量y有影响的所有因素产生的总效应。
二、一元线性回归模型的基本假设由于模型中随机项的存在使得参数β0和β1的数值不可能严格计算出来,而只能进行估计,在计量经济学中,有很多方法可以估计出这些参数值,但采用什么方法能够尽可能准确地估计出这些参数值,取决于随机项μ和自变量x的性质。
因此,对随机项μ和自变量x的统计假定以及检验这些假定是否满足的方法,在计量经济学中占有重要的地位。
估计方法中用得最多的是普通最小二乘法(Ordinary Least Squares),同样为了保证利用普通最小二乘法估计出的参数估计量具有良好的性质,也需要对模型的随机项μ和自变量x 提出若干种假设。
当模型中的随机项μ和自变量x满足这些假设时,普通最小二乘法就是适合的估计方法;当模型中的随机项μ和自变量x不满足这些假设时,普通最小二乘法就不是适合的方法,这时需要利用其他的方法来估计模型。
一元线性回归模型及其应用
题型二 一元线性回归模型的应用
[探究发现]
(1)残差平方和与R2有怎样的关系?
n
yi-^yi2
i=1
提示:R2=1-
,即残差平方和越小,R2 越大.
n
yi--y 2
i=1
(2)R2的大小对模型的拟合效果有怎样的影响?
提示:R2越大,说明残差平方和越小,即模型的拟合效果越好.
[学透用活] [典例2] 假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5 组数据如下:
解:(1) x =16×(8+8.2+8.4+8.6+8.8+9)=8.5, y =16×(90+84+83+80+75+68)=80, ^a= y +20 x =80+20×8.5=250, 所以经验回归方程为^y=-20x+250. (2)工厂获得的利润 z=(x-4)y=-20x2+330x-1 000, 由二次函数知识可知当 x=343时,zmax=361.25(元). 故该产品的单价应定为 8.25 元.
2.一元线性回归模型参数的最小二乘估计 (1)经验回归方程:
对于一组具有线性相关关系的成对样本数据(x1,y1),(x2,y2),…,(xn,yn),
n
xi--x yi--y
n xiyi-n-x -y
i=1
i=1
由最小二乘法得^b=
=
,
n
xi--x 2
n x2i -n-x 2
i=1
i=1
^a=-y -^b-x .
(二)基本知能小试
1.判断正误
(1)在一元线性回归模型中,e 是 bx+a 预报真实值 y 的随机误差,它是一个
可观测的量.
()
(2)用最小二乘法求出的^b可能是正的,也可能是负的. (3)残差平方和越大,线性回归模型的拟合效果越好. (4)经验回归方程^y=^bx+^a必过点(-x ,-y =1 076.2.
第三节 一元线性回
1
1、回归系数的显著性检验
• 估计量 S 2 来代替。 ˆ • 但样本为小样本时,回归系数估计量 β1 的标准 化变换值服从t分布,即:
σ 2 是未知的,要用其无偏 一般来说,总体方差
tβˆ =
1
ˆ β1 − β1 Sβˆ
1
~ t (n − 2)
• 式中n为样本容量,n-2为自由度。 •
回归系数显著性检验步骤:
(二)一元线性回归分析的特点 二 一元线性回归分析的特点
• 1、在两个变量之间,必须根据研究目的具体确定哪个 是自变量,哪个是因变量。相关分析不必确定两个变量中 哪个是自变量,哪个是因变量。 2、计算相关系数时,要求相关的两个变量都是随机的; 但是,在回归分析中因变量是随机的,而自变量不是随机 的变量。 3、在没有明显的因果关系的两个变量与y之间,可以 3 y 求得两个回归方程。 4、回归方程的主要作用在于:给出自变量的数值来估 计因变量的可能值。一个回归方程只能做出一种推算,推 算的结果表明变量之间的具体的变动关系。 5、直线回归方程中,自变量的系数称回归系数。回归 系数的符号为正,表示正相关;为负则表示负相关。
ˆ β1 =
n∑ xi yi − ∑ xi ∑ yi n∑ x − (∑ xi )
2 i 2
ˆ ˆ β 0 = yi − β1 xi
(一)参数 β 0 , β 1 的最小二乘估计
一元回归线性模型
一元回归线性模型
一元线性回归模型,又称为简单线性回归模型,是机器学习中常
用的回归模型,它是利用一个自变量X来预测因变量Y的结果。
一元
线性回归模型将样本数据映射为一条直线,如y=ax+b,其中a是斜率,b是截距,也就是说,一元线性回归模型中的参数是斜率和截距,而拟
合的直线就是根据样本数据估计出来的最佳拟合直线。
目标函数是求解参数 a 和 b,使得误差平方和最小,具体来说,
目标函数的表达式为:J(a,b)=Σi(yi-f(xi))^2,其中f(x)=ax+b,yi为观测值,xi为观测值对应的自变量。
对于一元线性回归模型,求解参数 a 和 b 的最优方法要么是直
接用梯度下降法求解,要么是用最小二乘法求解。
梯度下降法求解时,需构造损失函数,使用梯度下降法迭代更新参数,直到获得最优结果;而最小二乘法求解时,通过求解参数关于损失函数的导数,便可解出
模型参数,从而得到最优结果。
一元线性回归模型在实际应用中有很多优点,其中最重要的就是
它易于拟合和解释,它求解简单,可以很大程度上减少了计算复杂度,而且可以很好地预测因变量的值,也可以用来检验变量之间的关系。
第三章 一元线性回归
LOGO
三、一元线性回归模型中随机项的假定
( xi , yi ),i,j=1,2,3,…,n后,为了估计(3.1.5) 在给定样本观测值(样本值) 式的参数 0和 1 ,必须对随机项做出某些合理的假定。这些假定通常称 为古典假设。
假设1、解释变量X是确定性变量,不是随机变量; 假设2、随机误差项具有零均值、同方差和不序列相关性: E(i)=0 Var (i)=2 i=1,2, …,n i=1,2, …,n
ˆ i ) ( y i 0 1 xi ) 2 Q( 0,1) ( yi y
2 i 1 i 1 n n
(3.2.3)
ˆ , ˆ ,使式 所谓最小二乘法,就是寻找参数 0,,1 的估计值 0 1 ˆ , ˆ 满足: (3.2.3)定义的离差平方和最小,即寻找 0 1
y 1 x
2 y 0 2 x
LOGO
二是被解释变量x与参数 之间为线性关系,即参数 仅以一次方的 形式出现在模型之中。用数学语言表示为:
y 1 0
y 0 2 0
2
y x 1
2 y 0 2 1
在经济计量学中,我们更关心被解释变量y与参数
之间的线性关系。因
第三章 一元线性回归
3.1 一元线性回归模型 3.2 回归参数 0,1 的估计 3.3 最小二乘估计的性质 3.4 回归方程的显著性检验
3.5 预测和控制
LOGO
3.1 一元线性回归模型
一、回归模型的一般形式
1、变量间的关系 经济变量之间的关系,大体可分为两类:
(1)确定性关系或函数关系:变量之间有唯一确定性的函数关 系。其一般表现形式为:
对于总体回归模型,
y f ( x1, x2 ,, xk ) u
第3章一元线性回归模型
ui ~N(0,u2)
22
五、样本回归函数(SRF)
23
⒈问题的提出
由于总体的信息往往无法掌握,现实的情况只能是在 一次观测中得到总体的一组样本。
问题是能从一次抽样中获得总体的近似的信息吗?如 果可以,如何从抽样中获得总体的近似信息?
例2:在例1的总体中有如下一个样本,问:能否从该 样本估计总体回归函数PRF?
程/函数/线:
Yˆ βˆ βˆ X
i
0
1
i
Yˆ为EY的估计值
i
i
10
二、回归分析的基本概念和原理
于是 可,建立如 样下本的回归:
YYˆuˆ βˆ βˆXe
i
i
i
0
1
i
i
11
二、回归分析的基本概念和原理
回归分析构成计量经济学的方法论基础,其 主要内容包括:
(1)根据样本观测值对计量经济模型参数进行估计,
3
一、变量间的关系 经济变量之间的关系,大体可分为两类:
确定性关系或函数关系:研究的是确定现象非随 机变量间的关系。 统计依赖或相关关系:研究的是非确定现象随机 变量间的关系。
4
△对变量间统计依赖关系的考察主要是通过相关分析 (correlation analysis)或回归分析(regression analysis)来完成的:
为达到此目的,将该60户家庭划分为组内收入差不多的10 组,以分析每一收入组的家庭消费支出(下表)。
13
14
从散点图发现:随着收入的增加,消费“平均地
说”也在增加,且Y的条件均值均落在一根正斜率的 直线上。这条直线称为总体回归线。
一元线性回归模型
1078 1254 1496 1683 1925 2233 2552 1122 1298 1496 1716 1969 2244 2585 1155 1331 1562 1749 2013 2299 2640 1188 1364 1573 1771 2035 2310 1210 1408 1606 1804 2101
• 因此,给定收入X得值Xi,可得消费支出Y得条 件均值(conditional mean)或条件期望 (conditional expectation):E(Y|X=Xi)。
• 该例中:E(Y | X=800)=605 • 描出散点图发现:随着收入得增加,消费“平均
地说”也在增加,且Y得条件均值均落在一根 正斜率得直线上。这条直线称为总体回归线。
3500
每 月 消 费 支 出 Y (元)
3000 2500 2000 1500 1000
500
0
500
1000
1500 2000 2500 3000 每月可支配收入X(元)
3500 4000
Y
E(Y X i ) 1 2 X i
**********
**********
**********
**********
– (2)对回归方程、参数估计值进行显著性检 验;
– (3)利用回归方程进行分析、评价及预测。
大家应该也有点累了,稍作休息
大家有疑问的,可以询问和交
12
二、总体回归函数
• 回归分析关心得就是根据解释变量得已知
一元线性回归模型
1. 提出假设 H0:r=0 2.
线性关系不显著
计算检验统计量F
3. 确定显著性水平,并根据分子自由度1和分母自由度n2找出临界值F 4. 作出决策:若F>F ,拒绝H0;若F<F ,不拒绝H0
课堂作业
1、若X表示在一家分店工作的售货人数,Y表示这家分店的年销售额 (千元),已经求出Y对X的回归方程的估计结果如下表
最小二乘法的思路
纵向距离是Y的实际值与拟合值之差,差异大拟
合不好,差异小拟合好,所以称为残差、拟合
误差或剩余。
将所有纵向距离平方后相加,即得误差平方和,
“最好”直线就是使误差平方和最小的直线。 拟合直线在总体上最接近实际观测点。 于是可以运用求极值的原理,将求最好拟合直 线问题转换为求误差平方和最小的问题。
显著性检验
1、经济意义检验 2、统计意义检验
经济意义检验
1、检验参数估计量的符号 2、检验参数估计量的大小 3、参数之间的关系
显著性检验
1、相关系数检验 2、回归系数检验 3、线性关系检验
回归系数的检验
1. 检验 x 与 y 之间是否具有线性关系, 或者说,检验自变量 x 对因变量 y 的 影响是否显著
x
最小二乘法
(
ˆ 0
和
ˆ 1
的计算公式)
ˆ ˆ 根据最小二乘法的要求,可得求解 0 和 1 的 公式如下 n Q ˆ ˆ 2(1) yi 0 1 xi 0 ˆ 0 i 1
n Q ˆ ˆ 2 yi 0 1 xi ( xi ) 0 ˆ 1 i 1
Байду номын сангаасyf
和
。
一元线性回归模型(教学课件)(人教A版2019选择性必修第三册)
175
170
165
160
父亲身高/cm
160
165
1
图8.2-1
环节三:抽象概括,形成概念
图8.2-1中的散点大致分布在一条直线附近,表明儿子身高和父亲身高这两个 变量之间有较强的线性相关关系,因此我们可以用一次函数来刻画父亲身高 对儿子身高的影响,而把影响儿子身高的其他因素,如母亲身高、生活环境、 饮食习惯等作为随机误差,得到刻画两个变量之间关系的线性回归模型其中, 随机误差是一个随机变量.
3.将图8.2-1中的点按父亲身高的大小次序用折线连起来,所得到的图 象是一个折线图,可以用这条折线表示儿子身高和父亲身高之间的关系 吗?
不能.一是父亲的身高与儿子的身高之间是随机关系,不是函数关系;
二是这组数据仅是总体的一个样本,不一定能很好地描述两个变量之间
的关系.
儿子身高/cm
190
185
180
的线性相关程度越弱;特别地,当|r|=0时,成对数据的没有线性相关关系;当 |r|=1时,成对数据都落在一条直线上.
恩格尔系数(Engel’s Coefficient)是根据恩格尔定律得出 的比例数,指居民家庭中食物支出占消费总支出的比重,是表示 生活水平高低的一个指标. 其计算公式:恩格尔系数=食物支出金额÷总支出金额.
i 1
n
n
( xi x)2 ( yi y)2
i 1
i 1
n
xi yi nx y
i 1
.
n
n
xi2 nx2
yi2 ny 2
i 1
i 1
2.相关系数的性质: ① 当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关. ② |r|≤1; ③ 当|r|越接近1时,成对数据的线性相关程度越强;当|r|越接近0时,成对数据
第三章 一元模型的参数估计PPT课件
4
一、参数的普通最小二乘估计(OLS)
给定一组样本观测值(Xi, Yi)(i=1,2,…n)要 求样本回归函数尽可能好地拟合这组值.
离差
要求样本函数仅可能好的拟合这组数值,我们可以考虑 使观测值Yi与样本回归值之差(残差ei)尽可能的小, 使之尽可能的接近PRF,即:
第三章 一元回归模型的参数估计
一、参数的普通最小二乘估计(OLS) 二、最小二乘估计量的数值性质 三、一元线性回归模型的基本假设 四、最小二乘估计量的统计性质 五、参数估计量的概率分布及随机干
扰项方差的估计 六、最小二乘估计(OLS)的精度或标准误
1
整体概况
概况一
点击此处输入 相关文本内容
01
概况二
2、 ∑ei2=f(^0 , ^1 ),即残差平方和是估计量^0 , ^1
的某个函数。 3、用OLS原理或方法选出来的^0 , ^1 ,将使得对
于给定的样本或数据残差平方和尽可能的小。 7
方程组(*)称为正规方程组(normal equations)。
8
记
x i2(X i X )2X i2 1 n X i2
点击此处输入 相关文本内容
02
概况三
点击此处输入 相关文本内容
03
2
单方程计量经济学模型分为两大类: 线性模型和非线性模型
•线性模型中,变量之间的关系呈线性关系 •非线性模型中,变量之间的关系呈非线性关系
一元线性回归模型:只有一个解释变量
Y i 01X ii
i=1,2,…,n
Y为被解释变量,X为解释变量,0与1为待估 参数, 为随机干扰项
6
普通最小二乘法(Ordinary least squares, OLS)给出的判断标准是:二者之差的
第3章一元线性回归模型的估计
3.1普通最小二乘法
图3-4 工作文件对话框
图3-5 工作文件窗口
3.1普通最小二乘法
工作文件窗口是EViews的子窗口,工作文件一建立就包含了两个对象,一 个是系数向量C(用来保存估计系数),另一个是残差序列RESID(实际值与 拟合值之差)。 3.建立工作对象
在工作文件窗口上选择Objects/New Object,弹出一个对象窗口,选择组 (Group)对象并命名,点击“OK”,如图3-6所示。
(Yi ˆ0 ˆ1Xi )Xi ei Xi 0
(3-10)
对式(3-9)、(3-10)进行整理得:
3.1普通最小二乘法
Yi nˆ0 ˆ1 X i (3-11)
Yi Xi ˆ0
X i ˆ1
X
2 i
(3-12)
式(3-11)和(3-12)称为正规方程,其中n是样本容量 。由这两个正规方程
式(3-15)和式(3-16)称为最小二乘估计量的离差形式。
对于最小二乘估计量(OLS估计量)ˆ0 、ˆ1 ,我们要做如下一些解释:
第一, OLS估计量 ˆ0 和 ˆ1 是由给定的样本观测值计算得到的。
第二, OLS估计量ˆ0和ˆ1 是总体参数 0 和 1 的点估计值。对于不同的样本
用最小二乘法可以计算得到不同的值,所以 ˆ0和 ˆ1 是统计量,是随机变量。
1 2 3 4 5 6 7 8 9 10 合计 平均
4000 4500 5000 5500 6000 6500 7000 7500 8000 8500 62500 6250
2687 3048 3374 3651 3772 4400 4797 4917 5526 5523 41695 4169.5
-2250 -1750 -1250 -750 -250
人教版高中数学选择性必修3《一元线性回归模型及其应用》PPT课件
46
48
51
(1)作出散点图;
(2)建立成绩y关于次数x的经验回归方程;
(3)作出残差图;
(4)计算R2,并用R2说明拟合效果的好坏.
解 (1)该运动员训练次数x与成绩y之间的散点图如图所示,由散点图可知,
它们之间具有线性相关关系.
8
(2)∵ =39.25,=40.875, ∑ xi2 =12 656,
人数y/万 12.39 20.02 25.57 30.26 35.77 37.57 40.23 40.95 41.73 43.71
^ =-157.74+77.62z,
^
故所求的经验回归方程为y =-157.74+77.62ln x.
素养形成
思维脉络
课前篇 自主预习
情境导入
恩格尔系数是根据恩格尔定律得出的比例数,指居民家庭中食物支出占消
费总支出的比重,是表示生活水平高低的一个指标.其计算公式:恩格尔系
数=食物支出金额÷总支出金额.
一个家庭收入越少,家庭收入中或者家庭总支出中用来购买食物的支出所
占的比例就越大,随着家庭收入的增加,家庭收入中或者家庭支出中用来购
均匀地分布在横轴的两边,说明残差比较符合一元线性回归模型的假定
3.我们可以用决定系数 R2 来比较两个模型的拟合效果,R2 的计算公式为
n
2
i=1
n
R =1-
^
∑ (y i -y i )2
2
∑ (y i -y)
i=1
n
.R 越大,表示残差平方和 ∑
2
i=1
^ 2
(yi-yi ) 越小,即模型的拟合效果越
^
∑ (yi -y )2
一元线性回归模型
Q =b0+b1P+ b2Yt + b3 P1 +b4Yt-1 + b5G+ u
1. u项包含的主要内容: (1)模型中省略的次要变量; (2)确定模型数学形式的误差; (3)样本点的测量误差; (4)一些随机因素。
2. u项的特性
u项包含的内容决定u项的特性是: (1)是众多因素的影响代表; (2)对被解释变量Y影响方向是各异的, 有正有负; (3)对被解释变量Y影响平均可能是0; (4)是非趋势性的随机变量。
把握这个思路很重要哦!
四、回归分析
1. 回归分析是回归模型的建立、估计、检 验理论和方法的统称
2.回归分析的主要内容
建立模型、估计模型、检验模型 、应用
二、四种重要的关系式
1. 总体关系式:Yi=b0+ u b1Xi+ i
2.总体回归方程:E(Yi)= b0+ b1Xi
3.样本关系式:Yi= bˆ0 +bˆ1 Xi+ei
复习相关概念:
1. 随机变量 2.随机变量的数字特征 数学期望 E(ui) (表示平均的指标) 方 差 Var(ui)(表示离散程度) 协 方 差 COV(ui , uj) (表示相关的指标) 3.正态分布
一元线型回归模型参数估计
一、古典假定 二、四种重要的关系式 三、普通最小二乘法 四、估计量的统计性质 五、估计量 六、随机项u的方差估计量
在计量经济模型中引入随机项扰动 ui 的理由如下:
第一,表示被解释变量Y与解释变量X的 不确定性关系
第二,模型不可能包含所有变量,次要变 量要省略 ; 第三,确定模型数学形式肯定会有误差 ; 第四,样本数据会有测量误差 ; 第五,一些随机因素无法选入模型。
一元线性回归模型案例分析
一元线性回归模型案例分析一、研究的目的要求居民消费在社会经济的持续发展中有着重要的作用。
居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。
改革开放以来随着中国经济的快速发展,人民生活水平不断提高,居民的消费水平也不断增长。
但是在看到这个整体趋势的同时,还应看到全国各地区经济发展速度不同,居民消费水平也有明显差异。
例如,2002年全国城市居民家庭平均每人每年消费支出为6029.88元, 最低的黑龙江省仅为人均4462.08元,最高的上海市达人均10464元,上海是黑龙江的2.35倍。
为了研究全国居民消费水平及其变动的原因,需要作具体的分析。
影响各地区居民消费支出有明显差异的因素可能很多,例如,居民的收入水平、就业状况、零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。
为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。
二、模型设定我们研究的对象是各地区居民消费的差异。
居民消费可分为城市居民消费和农村居民消费,由于各地区的城市与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。
而且,由于各地区人口和经济总量不同,只能用“城市居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。
所以模型的被解释变量Y 选定为“城市居民每人每年的平均消费支出”。
因为研究的目的是各地区城市居民消费的差异,并不是城市居民消费在不同时间的变动,所以应选择同一时期各地区城市居民的消费支出来建立模型。
因此建立的是2002年截面数据模型。
影响各地区城市居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。
一元线性回归模型及参数估计
步骤:收集数据、建立模型、 计算参数、评估模型
优点:简单易行,适用于线 性回归模型
最大似然估计法
定义:最大似然 估计法是一种基 于概率的参数估 计方法,通过最 大化样本数据的 似然函数来估计
参数。
原理:利用已知 样本数据和概率 分布函数,计算 出样本数据出现 的概率,然后选 择使得概率最大 的参数值作为估
参数估计的性质
无偏性
定义:参数估计量是 无偏估计时,其期望 值等于参数的真实值。
性质:无偏性是线性 回归模型参数估计的 最基本性质之一,是 评价估计量优劣的重 要标准。
证明:可以通过数学 推导证明无偏性,具 体过程可以参考相关 教材或论文。
应用:在回归分析中, 无偏性可以保证估计 的参数具有最小误差, 从而提高预测的准确 性和可靠性。
计值。
优点:简单易行, 适用于多种分布 类型的数据,具
有一致性。
局限:对样本数 据的要求较高, 当样本数据量较 小或分布不均时, 估计结果可能不
准确。
最小绝对误差准则
定义:最小化预测值与实际值之间的绝对误差
优点:对异常值不敏感,能够更好地处理数据中的噪声和异常值
缺点:可能导致模型过于复杂,过拟合数据 应用场景:适用于预测连续变量,尤其是当因变量和自变量之间的关系是 非线性的情况
行处理。
处理方法:包括 删除不必要的自 变量、合并相关 性较高的自变量、 使用其他模型等
方法。
模型预测与决策应用
预测未来趋势
利用一元线性回 归模型预测未来 趋势
模型参数估计的 方法和步骤
预测结果的解读 与决策应用
模型预测的局限 性及改进方法
制定决策依据
利用回归方程进行 预测
ห้องสมุดไป่ตู้
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章 一元线性回归模型一、预备知识 (一)相关概念对于一个双变量总体),(i i x y ,若由基础理论,变量x 和变量y 之间存在因果关系,或x 的变异可用来解释y 的变异。
为检验两变量间因果关系是否存在、度量自变量x 对因变量y 影响的强弱与显著性以及利用解释变量x 去预测因变量y ,引入一元回归分析这一工具。
将给定i x 条件下i y 的均值i i i x x y E 10)|(ββ+= (3.1) 定义为总体回归函数(Population Regression Function,PRF )。
定义)|(i i i x y E y -为误差项(error term ),记为i μ,即)|(i i i i x y E y -=μ,这样i i i i x y E y μ+=)|(,或i i i x y μββ++=10 (3.2) (3.2)式称为总体回归模型或者随机总体回归函数。
其中,x 称为解释变量(explanatory variable )或自变量(independent variable );y 称为被解释变量(explained variable )或因变量(dependent variable );误差项μ解释了因变量的变动中不能完全被自变量所解释的部分。
误差项的构成包括以下四个部分:(1)未纳入模型变量的影响 (2)数据的测量误差(3)基础理论方程具有与回归方程不同的函数形式,比如自变量与因变量之间可能是非线性关系(4)纯随机和不可预料的事件。
在总体回归模型(3.2)中参数10,ββ是未知的,i μ是不可观察的,统计计量分析的目标之一就是估计模型的未知参数。
给定一组随机样本n i y x i i ,,2,1),,( =,对(3.1)式进行估计,若10,),|(ββi i x y E 的估计量分别记为^1^0^,,ββi y ,则定义3.3式为样本回归函数i i x y ^1^0^ββ+= (n i ,,2,1 =) (3.3)注意,样本回归函数随着样本的不同而不同,也就是说^1^0,ββ是随机变量,它们的随机性是由于i y 的随机性(同一个i x 可能对应不同的i y )与x 的变异共同引起的。
定义^i i y y -为残差项(residual term ),记为i e ,即^i i i y y e -=,这样i i i e y y +=^,或i i i e x y ++=^1^0ββ (n i ,,2,1 =) (3.4) (3.4)式称为样本回归模型或者随机样本回归函数。
样本回归模型中残差项i e 可视为总体回归模型中误差项i μ的估计量。
(二)参数估计:普通最小二乘法如何估计总体参数10,ββ的估计量^1^0,ββ,或如何获得样本回归函数呢?在回归分析中,使用最广泛的方法是最小二乘法,一般称为普通最小二乘法(Ordinary Least Squares,OLS )1。
OLS 求解未知参数10,ββ的估计量^1^0,ββ,使残差平方和最小。
即∑∑∑===--=-=ni i i ni i i ni ix y y y e Minimize 12^1^012^12)()(ββ (3.5)求解(3.5)式可得∑∑==---=ni ini i ix xy y x x121^1)())((β ,x y ^1^0ββ-= (3.6)其中,∑==n i i x n x 11,∑==ni i y n y 11。
(三)古典线性回归模型统计推断除了包括参数估计外还包括假设检验,在根据样本回归函数检验假设时,需要对误差项i μ的生成过程做一些假定。
假定1 回归模型是参数线性的,但可以不是变量线性的。
假定2 解释变量i x 与随机误差项i μ不相关。
即0),cov(=i i x μ。
如果解释变量i x 是非随机的,则该假设自动满足。
假定3 零均值假定。
即0)(=i E μ假定4 同方差假定。
即1之所以称为普通最小二乘法,是因为还有一种方法称为广义最小二乘法,普通最小二乘法是广义最小二乘法的特例。
2)var(σμ=i假定5 无自相关假定。
即两个误差项之间不相关0),cov(=j i μμ j i ≠假定6 回归模型是正确设定的。
假定7 正态性假定。
即i μ~),0(2σN满足以上假定的回归模型称为古典线性回归模型(Classical Line Regression Model,CLRM )。
(四)高斯-马尔科夫定理如果古典线性回归模型的基本假定成立,则OLS 估计是最优线性无偏估计量(Best Linear Unbiased Estimators,BLUE )。
(五)预测原理回归分析的目的之一是利用回归模型预测因变量。
比如,金融决策经常涉及一个长期的资源承诺(a long-term commitment of resources ), 决策的收益将取决于将来发生的事情。
假设双变量总体的回归模型为(3.2),即i i i x y μββ++=10 (3.2) 在一组随机样本n i x y i i ,,2,1),,( =下,利用OLS 求得样本回归函数为(3.3) i i x y ^1^0^ββ+= (n i ,,2,1 =) (3.3) 给定样本外一点f x ,则因变量f y 的点预测为f f x y ^1^0^ββ+= (3.7) 点预测^f y 的标准误为∑=--++=ni if f x xx x ny se 122^^)()(11)(σ (3.8)因变量f y 的置信度为α-1的区间预测为[)()2(^2^f f y se n t y --α, )()2(^2^f f y se n t y -+α] (3.9)二、案例[案例1] 经济形势对人们工作意愿的影响根据劳动经济学理论,经济形势对人们工作意愿的影响存在两个互相独立的效应:受挫工人效应和增加工人效应。
用失业率度量(UNR)经济形势,用劳动力参与率(LFPR)度量人们的工作意愿。
受挫工人假说认为当经济形势恶化时,许多失业工人就业意愿降低,放弃寻找工作并退出劳动力市场,从而劳动力参与率下降;增加工人假说认为当经济形势恶化时,许多尚未进入劳动力市场的后备工人,比如带孩子的母亲,可能会由于养家的人失去工作而决定进入劳动力市场,即使这些工作的报酬很低,只要可以弥补由于养家的人失去工作而造成的损失即可,从而劳动参与率上升。
劳动参与率的增加或减少取决于增加工人效应和受挫工人效应的强弱对比。
如果增加工人效应占主导,则LFPR将升高;相反,如果受挫工人效应占主导,则LFPR将会下降。
因此,劳动参与率是上升还是下降,是一个实证问题。
表3-1给出了美国1980-2002年城市劳动参与率(CLFPR)和城市失业率(CUNR)数据,城市失业率是指城市失业人口占城市劳动力的百分比。
表3-1 1980-2002美国城市劳动力参与率、城市失业率与实际平均每小时国内工资year CLFPR(%) CUNR(%) AHE82($)1980 63.8 7.1 7.781981 63.9 7.6 7.691982 64.0 9.7 7.681983 64.0 9.6 7.791984 64.4 7.5 7.801985 64.8 7.2 7.771986 65.3 7.0 7.811987 65.6 6.2 7.731988 65.9 5.5 7.691989 66.5 5.3 7.641990 66.5 5.6 7.521991 66.2 6.8 7.451992 66.4 7.5 7.411993 66.3 6.9 7.391994 66.6 6.1 7.401995 66.6 5.6 7.401996 66.8 5.4 7.431997 67.1 4.9 7.551998 67.1 4.5 7.751999 2000 67.167.24.24.07.867.892001 66.9 4.8 7.99 2002 66.6 5.8 8.14 注:AHE82代表以1982年价计算的平均每小时工资。
资料来源:参考文献[1],3-5。
三、实验目的[案例1] 经济形势对人们工作意愿的影响1、用Eviews软件绘制CUNR与CLFPR之间的散点图,观察两变量之间的线性关系;2、根据劳动经济学理论以及散点图分析,为研究经济形势对人们工作意愿的影响,建立一元线性回归模型;3、根据劳动经济学理论,对回归系数的符号进行预期并加以解释;4、利用表3-1提供的数据,利用OLS法对问题2中建立的回归方程进行估计;5、在Word文件中报告回归结果并对回归结果进行解释;6、显示因变量的实际值、拟合值,残差表(残差图);7、绘制回归残差的直方图,并对残差进行正态性检验;8、计算CUNR的估计系数置信度为0.95的置信区间,该区间包括零吗?9、利用1980-1999年的数据为样本,再次估计问题2中建立的回归模型,并利用估计的结果,给出2000-2002年clfpr的点预测和区间预测(置信度为0.95)。
四、实验步骤[案例1] 经济形势对人们工作意愿的影响1、⑴建立工作文件workfile clfpr-cunr a 1980 2002⑵录入数据data cunr clfpr⑶绘制散点图打开包含序列cunr和clfpr组对象,点击View/Graph,在出现的Graph Options窗口的Specifi选项中选择Scatter,在Fit Lines中选择Regression Line,点击确定。
图3-1 城市劳动参与率与城市失业率的散点图从图3-1可以观察到城市劳动参与率与城市失业率存在较明显的负相关关系。
另外,也可通过计算两变量之间的简单相关系数,判断两变量之间线性关系的方向和程度。
在命令窗口键入cor cunr clfpr,在随后出现的相关系数矩阵中显示cunr 与 clfpr 之间的相关系数为-0.843967。
尽管用简单相关系数可以很方便地判断两变量之间线性相关的方向和程度,但散点图依然不可替代。
有时自变量与因变量之间并非线性关系,但通过一定的变量变换可转化为线性关系,而散点图可以为选择何种变换提供直观的帮助。
2、根据劳动经济学理论以及散点图分析,为研究经济形势对人们工作意愿的影响,建立一元线性回归模型如下:t t t cunr clfpr μββ++=10这里,人们的工作意愿是我们的研究对象,经济形势是影响因素。
故clfpr 是因变量或被解释变量,cunr 是自变量或解释变量。
3、从理论上分析,回归系数1β表示cunr 对clfpr 的边际影响,其符号取决于增加工人效应和受挫工人效应的强弱对比。
如果增加工人效应大于受挫工人效应,则1β为正值;相反,如果增加工人效应小于受挫工人效应,则1β为负值。