第八章 相关与回归分析-一元线性回归

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
个给定的 x 值,y 的期望值为E ( y ) = 0+ 1 x
4. 对于所有的 x 值,ε的方差σ2 都相同 5. 误差项ε是一个服从正态分布的随机变量,且相互独立。即
ε~N(0 ,σ2 ) 独立性意味着对于一个特定的 x 值,它所对应的ε与其他 x
值所对应的ε不相关 对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的
其中 X —— 解释变量(自变量) Y —— 被解释变量(因变量) 0, 1 —— 模型中的未知参数
—— 随机误差项
32
1、基本假定
1. 因变量x与自变量y之间具有线性关系 2. 在重复抽样中,自变量x的取值是固定的,即假定x是非随
机的 3. 误差项ε是一个期望值为0的随机变量,即E(ε)=0。对于一
儿子与父亲的身高关系:Y=33.73+0.516X(英寸)
24
一、概述——什么是回归分析(Regression )?
1. 从一组样本数据出发,确定变量之间的数学关系式 2. 对这些关系式的可信程度进行各种统计检验,并从
影响某一特定变量的诸多变量中找出哪些变量的影 响显著,哪些不显著 3. 利用所求的关系式,根据一个或几个变量的取值来 预测或控制另一个特定变量的取值,并给出这种预 测或控制的精确程度
31
二、一元线性回归分析 描述因变量 y 如何依赖于自变 量 x 和误差项 的方程称为回
(一)一元线性回归模型 归模型
Y 与X 间基本呈线性关系。这些点与直线
Y = 0 + 1X
间的偏差是由其他一些无法控制的因素和观察误差引起的。 因此可以建立 Y 与 X 之间关系的如下线性回归模型
Y = 0 + 1X +
20
例1 对不良贷款与贷款余额之间的相关系数进行 显著性检验(0.05)
1、提出假设:H0: ;H1: 0
2、计算检验的统计量
t 0.8436
25 2 1 0.84362
7.5344
3、 根据显著性水平=0.05,查t分布表得t(n-2)=2.069
▪ 由于t=7.5344>t(25-2)=2.069,拒绝H0,不良贷 款与贷款余额之间存在着显著的正线性相关关系
可视为不相关 上述解释必须建立在对相关系数的显著性进行检
验的基础之上.
17
完全负相关
无线性相关
完全正相关
-1.0 -0.5 0 +加
上例相关系数结果:
19
3、相关系数的显著性检验
检验两个变量之间是否存在线性相关关系(r只是样本
相关系数,而样本则具有随机性,其大小不能代表总体的相 关程度,需要进行检验)
进行相关分析时,对总体的假
x
定:
(1)两个变量之间是线性关系
(2) 两个变量都是随机变量
8
相关关系的类型
相关关系
线性相关 非线性相关 完全相关 不相关
正负 相相 关关
正负 相相 关关
9
相关关系的图示
完全正线性相关
正线性相关
完全负线性相关
负线性相关
非线性相关
不相关
10
前提条件:
两个变量均服从(或近似服从)正态分布的定量资料。 ➢ 采用 R.A.Fisher提出的 t 检验 ➢ 检验的步骤为
(1)提出假设:H0: ;H1:
(2)计算检验的统计量:t
r
n 2
~ t(n 2)
1 r2
(3)确定显著性水平,并作出决策
• 若t>t,拒绝H0
• 若t<t,接受H0
温度(x3)之间的关系 ▪ 商品的消费量(y)与居民收入(x)之间的关系 ▪ 商品销售额(y)与广告费支出(x)之间的关系
相关关系
(correlation)
I. 变量间存在的不确定的数
量关系
II. III. IV.
变量间关系不能用函数关 系精确表达
一个变量的取值不能由另 一个变量唯一确定
当变量 x 取某个值时,变
3159
1989
1519
788
1999
7159
3346
1990
1644
833
2000
7858
3632
1991
1893
932
2001
8622
3869
1992
2311
1116
2002
9398
4106
1993
2998
1393
2003
10542
4411
1994
4044
1833
2004
12336
4925
1995
11
12
1、散点图
不良贷款
14
12
10
8
6
4
2
0 0
100
200
300
400
贷款余额 不良贷款与贷款余额的散点图
14
12
10
8 6
4
2
0 0
10
20
30
40
贷款项目个数
不良贷款与贷款项目个数的散点图
不良贷款
不良贷款
14
12
10
8
6
4
2
0 0
10
20
30
累计应收贷款
不良贷款与累计应收贷款的散点图
14
反映了全部观察值与回归直线间总的偏离程度。
显然,Q 的值越小,就说明回归直线对所有样本数据的 拟和程度越好。 所谓最小二乘法,就是要使
12 10
8 6
4 2
0 0
50
100
150
200
固定资产投资额
不良贷款与固定资产投资额的散点图13
不良贷款
2、相关系数
➢ 对变量之间关系密切程度的度量 ➢ 对两个变量之间线性相关程度的度量称为简单相关
系数 ➢ 若相关系数是根据总体全部数据计算的,称为总体
相关系数,记为
➢ 若是根据样本数据计算的,则称为样本相关系数, 记为 r
2. 一元线性回归方程的形式如下
E( y ) = 0+ 1 x
▪ 方程的图示是一条直线,也称为直线回归方程 ▪ 0是回归直线在 y 轴上的截距,是当 x=0 时 y 的期望值 ▪ 时1是,直y 的线平的均斜变率动,值称为回归系数,表示当 x 每变动一个单位
35
3、估计的回归方程(estimated regression equation)
r =1,为完全正相关 r =-1,为完全负正相关 ➢ r = 0,不存在线性相关关系相关 ➢ -1r<0,为负相关 ➢ 0<r1,为正相关 ➢ |r|越趋于1表示关系越密切;|r|越趋于0表示关系越不 密切
16
相关系数的经验解释
|r|0.8时,可视为两个变量之间高度相关 0.5|r|<0.8时,可视为中度相关 0.3|r|<0.5时,视为低度相关 |r|<0.3时,说明两个变量之间的相关程度极弱,
y 值也不相关
33
0
x1
y
x=x1时y的分 x=x2 时 y 的 x=x3 时 y 的

分布
分布
x=x1 时 的 E(y)
x2
x=x2 时 的 E(y)
x3
x=x3 时 的 E(y)
0+ 1x
x
34
2、回归方程 (regression equation)
1. 描述 y 的平均值或期望值如何依赖于 x 的方程称为 回归方程。
y
量 y 的取值可能有几个 V. 各观测点分布在直线周围
x
第一节 直线相关分析
(相关分析)
两个变量之间线性关系的描述 与度量,即:
(1)变量之间是否存在关系? y
(2)如果存在关系,它们之间是 什么样的关系?
(3)变量之间的关系强度如何?
(4)样本所反映的变量之间的关 系能否代表总体变量之间的关系
▪ 圆的面积(S)与半径之间的关系可表示为S=R2
▪ 企业的原材料消耗额(y)与产量(x1) 、单位产量
消耗(x2) 、原材料价格(x3)之间的关系可表示为
y = x1 x2 x3
y
是一一对应的确定关系
x
相关关系的例子
▪ 父亲身高(y)与子女身高(x)之间的关系 ▪ 收入水平(y)与受教育程度(x)之间的关系 ▪ 粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、
21
各相关系数检验的统计量
22
第二节 一元线性回归 ➢ 概述 ➢ 一元线性回归分析 ➢ 一元线性回归模型的统计检验 ➢ 利用回归方程进行估计和预测 ➢ 残差分析
23
一、概述——趋向中间高度的回归
回归这个术语是由英国著名统计学家Francis Galton在 1886年研究孩子及他们的父母的身高时提出来的。Galton 发现身材高的父母,他们的孩子也高。但这些孩子平均起 来并不像他们的父母那样高。对于比较矮的父母情形也类 似:他们的孩子比较矮,但这些孩子的平均身高要比他们 的父母的平均身高高。 Galton把这种孩子的身高向中间值 靠近的趋势称之为一种回归效应,而他发展的研究两个数 值变量的方法称为回归分析。
1. 总体回归参数 0和 1是未知的,必须利用样本 数据去估计
1. 用样本统计量 ˆ0、ˆ1 代替回归方程中的未知参数
0和 1 ,就得到了估计的回归方程
3. 一元线性回归中估计的回归方程为
yˆ ˆ0 ˆ1x
其中: 是估计的回归直线在 y 轴上的截距, 是直线 的斜率,它表示对于一个给定的 x 的值, yˆ 是 y 的估 计值,也表示 x 每变动一个单位时, y 的平均变动值
也称为线性相关系数(linear correlation coefficient) 或称为Pearson相关系数 (Pearson’s correlation coefficient)
14
样本相关系数的计算公式
或化简为
15
相关系数取值及其意义
➢ r 的取值范围是 [-1,1] ➢ |r|=1,为完全相关
相关与回归分析
1
为了研究父亲与成年儿 子身高之间的关系,卡 尔.皮尔逊测量了1078对 父子的身高。把1078对 数字表示在坐标上,如 图。用水平轴X上的数代 表父亲身高,垂直轴Y上 的数代表儿子的身高, 1078个点所形成的图形 是一个散点图。它的形 状象一块橄榄状的云, 中间的点密集,边沿的 点稀少,其主要部分是 一个椭圆。
II. 相关分析中所涉及的变量 x 和 y 都是随机变量; 回归分析中,因变量 y 是随机变量,自变量 x 可 以是随机变量,也可以是非随机的确定变量
III. 相关分析主要是描述两个变量之间线性关系的密 切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制
一、概述——回归模型的类型
36
(二) 参数的最小二乘估计
回归模型中的参数估计,采用的是“最小二乘法”, 其原理如下:
Y 的各观察值 yi 与回归值 yˆi 之差 yi yˆi 反映了 yi 与回归直线之间的偏离程度, 从而全部观察值与回归值
的残差平方和
Q(βˆ0, βˆ1) ( yi yˆi )2 (yi βˆ0 βˆ1xi )2
25
例2 全国人均消费金额记作y(元); 人均国民收入记为x(元)
人均国民收入表
年份 人均国民收入(元) 人均消费金额(元) 年份 人均国民收入(元) 人均消费金额(元)
1986
963
497
1996
5846
2789
1987
1112
565
1997
6420
3002
1988
1366
714
1998
6796
回归模型
一元回归
多元回归
线性回归 非线性回归 线性回归 非线性回归
30
一、概述——回归分析的主要内容和分析步骤 1. 根据问题的实际背景、专业知识或通过对
样本数据的分析,建立描述变量间相关关系的 回归模型;
2. 利用样本数据估计模型中的未知参数,得 到回归方程;
3. 对模型进行检验; 4. 利用通过检验的回归方程对被解释变量进 行预测或控制。
三、相关分析的步骤--相关关系的描述与测度
【例】一家大型商业银行在多个地区设有分行,其
业务主要是进行基础设施建设、国家重点项目建 设、固定资产投资等项目的贷款。近年来,该银 行的贷款额平稳增长,但不良贷款额也有较大比 例的增长,这给银行业务的发展带来较大压力。 为弄清楚不良贷款形成的原因,管理者希望利用 银行业务的有关数据做些定量分析,以便找出控 制不良贷款的办法。下面是该银行所属的25家分 行2002年的有关业务数据 。
2
本章主要内容
➢ 相关分析
• 相关关系度量 • 相关关系显著性检验
➢ 一元线性回归分析
• 一元线性回归模型 • 参数的最小二乘估计 • 回归直线的拟合优度 • 显著性检验
➢ 利用回归方程进行预测
➢ 残差分析
3
第一节 直线相关分析 一、变量间的关系
函数关系
相关关系
函数关系的例子
▪ 某种商品的销售额(y)与销售量(x)之间的关系可 表示为 y = px (p 为单价)
5046
2355
2005
14040
5439
27
回归分析与相关分析的联系
I. 都用于分析变量间的关系; II. 相关分析是回归分析的前提,相关程度越高, 回
归分析效果越好; III. 同一例中相关系数和回归系数方向一致,可以互
相推算; r是回归分析的一个基本统计量。
回归分析与相关分析的区别
I. 相关分析中,变量 x 变量 y 处于平等的地位;回 归分析中,变量 y 称为因变量,处在被解释的地 位,x 称为自变量,用于预测因变量的变化
相关文档
最新文档