关于最小二乘法和线性回归及很好的总结课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
比如:恐怖事件、自然灾害、设备故障等。
11
▪ 二、参数的最小二乘估计
▪ (一) 方法介绍
▪ 本章所介绍的是普通最小二乘法(ordinary least squares,简记OLS);
▪ 最小二乘法的基本原则是:最优拟合直线应该 使各点到直线的距离的和最小,也可表述为距 离的平方和最小。
▪ 假定根据这一原理得到的α、β估计值为 、 ,
6
▪ 图2-1中的直线可表示为
y=x
(2.1)
根据上式,在确定α、β的情况下,给定一个x
值,我们就能够得到一个确定的y值,然而根
据式(2.1)得到的y值与实际的y值存在一个
误差(即图2-1中点到直线的wk.baidu.com离)。
7
▪ 如果我们以u表示误差,则方程(2.1)变为:
y=xu (2.2)
即: yt xt ut (2.3)
2
图2-1 货币供应量和GDP散点图
3
▪ 图2-1表示的是我国货币供应量M2(y)与经过 季节调整的GDP(x)之间的关系(数据为 1995年第一季度到2004年第二季度的季度数 据)。
4
▪ 但有时候我们想知道当x变化一单位时,y平均 变化多少,可以看到,由于图中所有的点都相 对的集中在图中直线周围,因此我们可以以这 条直线大致代表x与y之间的关系。如果我们能 够确定这条直线,我们就可以用直线的斜率来 表示当x变化一单位时y的变化程度,由图中的 点确定线的过程就是回归。
▪ 在回归模型中它是不确定的,服从随机分布 (相应的,yt也是不确定的,服从随机分布)。
10
▪ 为什么将ut 包含在模型中? ▪ (1)有些变量是观测不到的或者是无法度量
的,又或者影响因变量yt的因素太多; ▪ (2)在yt的度量过程中会发生偏误,这些偏
误在模型中是表示不出来的; ▪ (3)外界随机因素对yt的影响也很难模型化,
5
▪ 对于变量间的相关关系,我们可以根据大量的 统计资料,找出它们在数量变化方面的规律 (即“平均”的规律),这种统计规律所揭示 的关系就是回归关系(regressive relationship),所表示的数学方程就是回归方程 (regression equation)或回归模型 (regression model)。
15
▪ 总体回归方程(PRF)表示变量之间的真实关 系,有时也被称为数据生成过程(DGP), PRF中的α、β值是真实值,方程为:
yt xt+ u t (2. 7)
▪ 样本回归方程(SRF)是根据所选样本估算的 变量之间的关系函数,方程为:
yˆ ˆˆxt
(2.8)
注意:SRF中没有误差项,根据这一方程得到
可以进行如下变换:
ly n t lA n lx n t u t (2.11)
▪ 令Yt lnyt、lnA、Xt lnxt,则方程
比如,y= x2 就是一个线性回归模型,
但 y x 则不是。
▪ 在本课程中,线性回归一词总是对指参数β为 线性的一种回归(即参数只以一次方出现), 对解释变量x则可以是或不是线性的。
18
▪ 有些模型看起来不是线性回归,但经过一些基 本代数变换可以转换成线性回归模型。例如,
yt Axteut
(2.10)
其中t(=1,2,3,…..,T)表示观测数。 式(2.3)即为一个简单的双变量回归模型(因其仅 具有两个变量x, y)的基本形式。
8
▪ 其中yt被称作因变量 ▪ xt被称作自变量
(dependent variable)、(independent variable)、
被解释变量
解释变量
(explained variable)、(explanatory variable)、
则直 ˆ 线可 ˆ 表示为
yt 。ˆ ˆxt
12
▪ 直线上的yt值,记为 yˆ t ,称为拟合值(fitted
value),实际值与拟合值的差,记为u ˆ t ,称
为残差(residual) ,可以看作是随机误差
项u t 的估计值。
▪ 根据OLS的基本原则,使直线与各散点的距
离的平方和最小,实际上是使残差平方和
的是总体因变量的期望值
16
于是方程(2.7)可以写为:
yt ˆˆxt uˆt
(2.9)
▪ 总体y值被分解为两部分:模型拟合值( yˆ )
u 和残差项( ˆ t )。
17
▪ 3.线性关系
▪ 对线性的第一种解释是指:y是x的线性函数,
比如,y= x。
▪ 对线性的第二种解释是指:y是参数的一个线 性函数,它可以不是变量x的线性函数。
关于最小二乘法和线性回归及 很好的总结
1
第一节 最小二乘法的基本属性
▪ 一、有关回归的基本介绍
金融、经济变量之间的关系,大体上可以分 为两种:
(1)函数关系:Y=f(X1,X2,….,XP),其中Y的 值是由Xi(i=1,2….p)所唯一确定的。
(2)相关关系: Y=f(X1,X2,….,XP) ,这里Y的 值不能由Xi(i=1,2….p)精确的唯一确定。
结果变量
原因变量
(effect variable); (causal variable)
9
▪ α、β为参数(parameters),或称回归系数 (regression coefficients);
▪ ut通常被称为随机误差项(stochastic error term),或随机扰动项(random disturbance term),简称误差项,
ˆ y ˆx
(2.5) (2.6)
14
▪ (二)一些基本概念 ▪ 1.总体(the population)和样本(the sample) ▪ 总体是指待研究变量的所有数据集合,可以是
有限的,也可以是无限的;而样本是总体的一 个子集。
▪ 2、总体回归方程(the population regression function,简记PRF),样本回归方程(the sample regression function,简记SRF)。
T
(residual sum of squares, 简记RSS)
uˆ
2 t
最小,即最小化:
t1
T
T
RSS= ( yt yˆt ) 2 = (yt ˆ ˆxt )2 (2.4)
t 1
t1
13
▪ 根据最小化的一阶条件,将式2.4分别对、求 偏导,并令其为零,即可求得结果如下 :
ˆ xt yt Txy xt2 Tx2
11
▪ 二、参数的最小二乘估计
▪ (一) 方法介绍
▪ 本章所介绍的是普通最小二乘法(ordinary least squares,简记OLS);
▪ 最小二乘法的基本原则是:最优拟合直线应该 使各点到直线的距离的和最小,也可表述为距 离的平方和最小。
▪ 假定根据这一原理得到的α、β估计值为 、 ,
6
▪ 图2-1中的直线可表示为
y=x
(2.1)
根据上式,在确定α、β的情况下,给定一个x
值,我们就能够得到一个确定的y值,然而根
据式(2.1)得到的y值与实际的y值存在一个
误差(即图2-1中点到直线的wk.baidu.com离)。
7
▪ 如果我们以u表示误差,则方程(2.1)变为:
y=xu (2.2)
即: yt xt ut (2.3)
2
图2-1 货币供应量和GDP散点图
3
▪ 图2-1表示的是我国货币供应量M2(y)与经过 季节调整的GDP(x)之间的关系(数据为 1995年第一季度到2004年第二季度的季度数 据)。
4
▪ 但有时候我们想知道当x变化一单位时,y平均 变化多少,可以看到,由于图中所有的点都相 对的集中在图中直线周围,因此我们可以以这 条直线大致代表x与y之间的关系。如果我们能 够确定这条直线,我们就可以用直线的斜率来 表示当x变化一单位时y的变化程度,由图中的 点确定线的过程就是回归。
▪ 在回归模型中它是不确定的,服从随机分布 (相应的,yt也是不确定的,服从随机分布)。
10
▪ 为什么将ut 包含在模型中? ▪ (1)有些变量是观测不到的或者是无法度量
的,又或者影响因变量yt的因素太多; ▪ (2)在yt的度量过程中会发生偏误,这些偏
误在模型中是表示不出来的; ▪ (3)外界随机因素对yt的影响也很难模型化,
5
▪ 对于变量间的相关关系,我们可以根据大量的 统计资料,找出它们在数量变化方面的规律 (即“平均”的规律),这种统计规律所揭示 的关系就是回归关系(regressive relationship),所表示的数学方程就是回归方程 (regression equation)或回归模型 (regression model)。
15
▪ 总体回归方程(PRF)表示变量之间的真实关 系,有时也被称为数据生成过程(DGP), PRF中的α、β值是真实值,方程为:
yt xt+ u t (2. 7)
▪ 样本回归方程(SRF)是根据所选样本估算的 变量之间的关系函数,方程为:
yˆ ˆˆxt
(2.8)
注意:SRF中没有误差项,根据这一方程得到
可以进行如下变换:
ly n t lA n lx n t u t (2.11)
▪ 令Yt lnyt、lnA、Xt lnxt,则方程
比如,y= x2 就是一个线性回归模型,
但 y x 则不是。
▪ 在本课程中,线性回归一词总是对指参数β为 线性的一种回归(即参数只以一次方出现), 对解释变量x则可以是或不是线性的。
18
▪ 有些模型看起来不是线性回归,但经过一些基 本代数变换可以转换成线性回归模型。例如,
yt Axteut
(2.10)
其中t(=1,2,3,…..,T)表示观测数。 式(2.3)即为一个简单的双变量回归模型(因其仅 具有两个变量x, y)的基本形式。
8
▪ 其中yt被称作因变量 ▪ xt被称作自变量
(dependent variable)、(independent variable)、
被解释变量
解释变量
(explained variable)、(explanatory variable)、
则直 ˆ 线可 ˆ 表示为
yt 。ˆ ˆxt
12
▪ 直线上的yt值,记为 yˆ t ,称为拟合值(fitted
value),实际值与拟合值的差,记为u ˆ t ,称
为残差(residual) ,可以看作是随机误差
项u t 的估计值。
▪ 根据OLS的基本原则,使直线与各散点的距
离的平方和最小,实际上是使残差平方和
的是总体因变量的期望值
16
于是方程(2.7)可以写为:
yt ˆˆxt uˆt
(2.9)
▪ 总体y值被分解为两部分:模型拟合值( yˆ )
u 和残差项( ˆ t )。
17
▪ 3.线性关系
▪ 对线性的第一种解释是指:y是x的线性函数,
比如,y= x。
▪ 对线性的第二种解释是指:y是参数的一个线 性函数,它可以不是变量x的线性函数。
关于最小二乘法和线性回归及 很好的总结
1
第一节 最小二乘法的基本属性
▪ 一、有关回归的基本介绍
金融、经济变量之间的关系,大体上可以分 为两种:
(1)函数关系:Y=f(X1,X2,….,XP),其中Y的 值是由Xi(i=1,2….p)所唯一确定的。
(2)相关关系: Y=f(X1,X2,….,XP) ,这里Y的 值不能由Xi(i=1,2….p)精确的唯一确定。
结果变量
原因变量
(effect variable); (causal variable)
9
▪ α、β为参数(parameters),或称回归系数 (regression coefficients);
▪ ut通常被称为随机误差项(stochastic error term),或随机扰动项(random disturbance term),简称误差项,
ˆ y ˆx
(2.5) (2.6)
14
▪ (二)一些基本概念 ▪ 1.总体(the population)和样本(the sample) ▪ 总体是指待研究变量的所有数据集合,可以是
有限的,也可以是无限的;而样本是总体的一 个子集。
▪ 2、总体回归方程(the population regression function,简记PRF),样本回归方程(the sample regression function,简记SRF)。
T
(residual sum of squares, 简记RSS)
uˆ
2 t
最小,即最小化:
t1
T
T
RSS= ( yt yˆt ) 2 = (yt ˆ ˆxt )2 (2.4)
t 1
t1
13
▪ 根据最小化的一阶条件,将式2.4分别对、求 偏导,并令其为零,即可求得结果如下 :
ˆ xt yt Txy xt2 Tx2