第三章回归分析预测方法
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
回归现代涵义
研究自变量与因变量之间的关系形式的分析方法。
目的:根据已知自变量来估计和预测因变量的值。
例如:
施肥量
农作物亩产量 降雨量
气温
在研究某一社会经济现象的发展变化 规律时,经过分析可以找到影响这一现 象变化的原因。在回归分析中,把某一 现象称为因变量,它是预测的对象,把 引起这一现象变化的因素称为自变量, 它是引起这一现象变化的原因。而因变 量则反映了自变量变化的结果。
相关分析 研究变量都是随机变量,不分自变量与因变量
区
别
回归分析
明确的自变量和因变量,自变量是确定的普通变量,因 随机变量。
相关分析 事物之间相互依存关系的两个不可分割的方面。在实际
联
一般先进行相关分析,由相关系数的大小决定是否需要
系
归分析。在相关分析的基础上建立回归模型,以便进行
回归分析 预测。
相关分析
?
首先需要确定选择这条直线的标准。这里介 绍最小二乘回归法(least squares regression)。
最小二乘回归法的基本思想:通过数学模型, 拟合一条较为理想的直线,这条直线必须满 足两点要求(1)原数列的观测值与模型估计 值的离差平方和(即所有点到该直线的垂直 距离的平方和)为最小。(2)原数列的观测 值与模型估计值的离差总和为0。
总体回归参数b0和b1是未知的,必需利用样本数据去估计。
用样本统计量b0和b1代替回归方程中的未知参数b0和b1 ,
就得到了估计的回归方程:
yˆ b0 b1x
其中, b0是估计的回归直线在y轴上的截距,b1是直线的
斜率。
二、参数b0和b1的最小二乘估计
对例3-1中两个变量的数据进行线性回归, 就是要找到一条直线来适当地代表图中的那 些点的趋势。
我们要求出这样的待估参数b0和b1,使因变量的观察值与估
计求Q 值Q 对之 b间y 0和i的 by 离1 的2差 偏 平导方e,i2和 就 达可到y 以i最 求b 小0 出 ,b 符1 即x合2 使要极求小的。待为估此参,数分b别0和
b1:
b 1n n x x y 2 ( x x)2 y, b 0 ny b 1 nx
法国数学家勒让德于1806年首次发表最小二乘理论。事实上, 德国的高斯于1794年已经应用这一理论推算了谷神星的轨道, 但迟至1809年才正式发表。
最小二乘法也是数理统计中一种常用的方法,在工业技术和 其他科学研究中有广泛应用。
设简单线性回归模型 yb0b1xe中, b0和b1是b0和b1
的估计值。则y的估计值用 yˆ b0 b1x表示。
第一,模型不可能包含所有的解释变量。 第二,模型的设定误差。 第三,测量误差的影响。 第四,其他随机因素的影响。
简单线性回归方程的形式为 yb0b1xe,
也称为直线回归方程。其中, b0是回归直线在y轴上的截距; b1是直线的斜率,称为回归系数,表示当x每变动一个单位 时,y的平均变动值。
第一节 引言
本章学习目的与要求:
通过本章的学习,了解回归分析预测法 的概念,掌握回归分析中各系数的计算方法 及回归预测方法,能够运用Excel工具来进行 预测。
回本章目录
一、回归与回归分析预测方法
“回归”一词的涵义 “回归”最初是遗传学中的一个名词,由英国
生物学家兼统计学家高尔登首先提出。他在研究 人类的身高时,发现子女身高有回归于人类的平 均身高的趋势。
如,企业的原材料消耗金额y与产量x1、单位 产量消耗x2、原材料价格x3之间的关系可表示 为y=x1x2x3。例:圆面积对于半径的依存关 系,正方形的面积对于边长的依存关系等等。
变量间的函数关系是一一对应的确定关系。
(2)相关关系
相关关系。反映事物之间的非严格、不确定的线性依存
关系。有两个显著的特点:
Байду номын сангаас二节 一元线性回归预测法
一元线性回归(Linear regression)是指成对的两个
变量数据分布大体上呈直线趋势时,运用合适的参数估
计方法,求出一元线性回归模型,然后根据自变量与因
变量之间的关系,预测因变量的趋势。
现实中,很多社会经济现象之间都存在相关关系, 因此,一元线性回归预测有很广泛的应用。进行一元线 性回归预测时,必须选用合适的统计方法估计模型参数, 并对模型及其参数进行统计检验。
用数据寻找一条直线的过程也叫做拟合 一条直线。
1200 1000
800 600
利润额 yt
系列2
线性 (利润额 yt)
ya2b2x y a1 b1x ya3b3x
400
200
0
1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005
回本章目录
一、一元线性回归模型
一元线性回归(Linear regression),只研究一个 自变量与一个因变量之间的统计关系。
对于只涉及一个自变量的简单线性回归模型可表
示为: yb0b1xe
其中,b0和b1称为模型的参数;e是随机误差项,
又称随机干扰项,有 e N0,2
在线性回归模型中加入随机误差项是基于 以下原因:
①事物之间在数量上确实存在一定的内在联系。表现在一 个变量发生数量上的变化,要影响另一个变量也相应地 发生数量上的变化。
例: 劳动生产率
成本
②事物之间的数量依存关系不是确定的,具有一定的随机 性。表现在给定自变量一个数值,因变量会有若干个数 值和它对应,并且因变量总是遵循一定规律围绕这些数 值平均数上下波动。其原因是影响因变量发生变化的因 素不止一个。
厂家 1 2 3 4 5 6 7 8 9 10 投入 20 40 20 30 10 10 20 20 20 30 产出 30 60 40 60 30 40 40 50 30 70
3、回归分析的基本思路
回归分析是研究某一随机变量(因变量)与其 他一个或几个普通变量(自变量)之间的数量变 动的关系。其基本思路是:从一组样本数据出 发,确定变量之间的数学关系式,对这些关系 式的可信程度进行各种统计检验,并从影响某 一特定变量的诸多变量中找出哪些变量的影响 显著,哪些不显著。然后利用所求的关系式, 根据一个或几个变量的取值来预测或控制另一 个特定变量的取值,并给出这种预测或控制的 精确程度。
最小二乘法
离差与离差平方
12
y 6 10
8
yˆ 6
6
e
4
2
0
1
2
3
4
5
离 差 : et yt yˆt
n
n
离 差 和 :et (yt yˆt)0
t1
t1
n
n
e
离 差 平 方 和ei2 (yt yˆt)2
t1
t1
最小
拟合程度最好
6
7
最小二乘原理
简单讲,使历史数据到拟合直线上的离差平方和最小,从而 求得模型参数的方法。
三、回归模型的种类
(1)根据自变量的多少,回归模型可以分为一元回归模 型和多元回归模型。
(2)根据模型中自变量与因变量之间是否线性,可以分 为线性回归模型和非线性回归模型。
(3)根据回归模型是否带有虚拟变量,回归模型可以分 为普通回归模型和带虚拟变量的回归模型。
应用回归分析预测需满足条件: 1.数据量不能太少(以多于20个较好); 2.预测对象与影响因素之间必须存在相关关系;
第三章回归分析预测方法
要求掌握以下内容:
概念部分: 1. 变量之间的关系可以分成哪两类 2. 回归分析与相关分析的区别和联系 3. 一元线性回归(Linear regression) 4. 最小二乘回归法的基本思想 5. 回归方程的显著性检验 6. 区间估计 7. 虚拟变量 计算部分: 8. 一元线性回归预测法
回归分析预测方法就是从各种经济 现象之间的相互关系出发,通过对与预 测对象有联系的现象变动趋势的分析, 推算预测对象未来状态数量表现的一种 预测方法。
二、回归分析和相关分析
1、变量之间的关系 现实世界中,每一事物都与它周围的事
物相互联系、相互影响,反映客观事物运动 的各种变量之间也就存在着一定的关系。变 量之间的关系可以分成两类:函数关系和相 关关系。
x
相关但无
线性关系
-3
-2
-1
0
1
2
3
x
2、回归分析与相关分析
研究和测度两个或两个以上变量之间关系的方 法有回归分析和相关分析。
相关分析。研究两个或两个以上随机变量之 间线性依存关系的紧密程度。通常用相关系 数表示,多元相关时用复相关系数表示。
回归分析。研究某一随机变量(因变量)与 其他一个或几个普通变量(自变量)之间的 数量变动的关系。
9719
第一步:绘制散点图
10000 9500 9000 8500 8000 7500 7000 6500 6000
yi(件)
500 550 600 650 700 750 800 850 900 950
xi(10元)
第二步:设一元线性回归方程为 年份
实际可支配 收入 x (10元)
商品的销售 量(件)
例3-2:已知某种商品的销售量同居民的可支配 收入有关,现有如下表的统计数据,试建立回归 方程,并求出相应参数的最小二乘估计值。
年份
实际可支配 收入 x(单位:
10元)
商品的销售量 (单位:件)
1983
522
6700
实际可支配 商品的销
年份 收入x(单位: 售量(单
10元)
位:件)
1991
741
8158
(1)函数关系。函数关系反映客观事物之 间存在着严格的依存关系,是一种确定 性关系,亦即当其它条件不变时,对于 某一自变量或几个自变量的每一数值, 都有因变量的一个的确定值与之相对应, 并且这种关系可以用一个确定的数学表
达式反映出来。
设有两个变量x和y,y与x一起变化并完全依 赖于x,当x取某个数值时,y依确定的关系取 相应的值,则称y是x的函数,记作y=f(x)。
1987
644
1988
670
1989
695
1990
713
7784 4771592 375769
yi 133703
8108 5221552 414736
7583 5080610 448900 xiyi 98944771
8002 8442
5561390 483025
xi×yi
1983
522
6700 3497400
yxˆi2b0
272484
b1x
b1 b0
n
n n
xi yi
yi xi2
b1
(
xi xi
xi n
)2
yi
1984
539
1985
577
7136 7658
3846304 290521
4418666 332929
xi 11651
1986
613
相关关系
线性相关
非线性相关
完全相关(R=±1) (即线性相关)
不相关(R=0)
正相关
负相关
正相关
负相关
相关系数——对变量之间关系密切程度的度量
r
(xi x)(yi y)
(xix)2* ( yi2)( yi)2
r 的取值范围是 [-1,1]:
完全相关 /完全正相关 /完全负相关 /不存在线性相关关 系 /负相关 /正相关
一般,︱r︱>0.7为高度相关;︱r︱<0.3为低度相关; 0.3< ︱r︱<0.7 为中度相关。
相关系数的缺点:r接近于1的程度与n有 关。当n较小时r的波动较大,当n较大时r 的绝对值容易偏小。例如,n=2时,r的 绝对值总为1(两点连线总为一条直线)。
例3-1 设有10个厂家的投入和产出如下,根据这些数据,我 们可以认为投入和产出之间存在相关性吗?(相关数据)
例:影响工业总产值的因素除了职工数外,还有固定资产 原值、流动资金和能耗等因素。
相关关系的特点
1.变量间关系不能用函数关系精确表达。 2.一个变量的取值不能由另一个变量唯一确定。 3.对于线性相关,各观测点分布在直线周围。
(a)
(b)
y -2 -1 0 1 2
y -2 -1 0 1 2
-3
-2
1984
539
7136
1992
769
8683
1985
577
7658
1993
801
9317
1986
613
7784
1994
855
9675
1987
644
8108
2019
842
8542
1988
670
7583
2019
860
8584
1989
695
8002
2019
890
9612
1990
713
8442
2019
920
-1
0
1
2
x
(c)
-2
-1
0
1
2
x
(d)
y 02468
y -2 -1 0 1 2
-2
-1
0
1
2
x
-3
-2
-1
0
1
2
3
x
(a)
y -2 -1 0 1 2
不相关
-3
-2
-1
0
1
2
x
(c)
y -2 -1 0 1 2
(b)
正相关
-2
-1
0
1
2
x
(d)
y 02468
y -2 -1 0 1 2
-2
-1
0
1
2
负相关