第七章 线性相关分析(2013.2修改 )
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 2
0.95
计算得到的相关系数为0.95,表示两指标
为高度正相关。
(2)
n xy x y 10 7659156 6525 9801 b 2 2 n x ( x ) 10 5668539 65252
76591560 63951525 12640035 0.90 56685390 42575625 14109765
2)相关系数用以说明两指标之间的相关
方向和相关的密切程度。
r n xy x y
[n x 2 ( x) 2 ][n y 2 ( y ) 2 ]
10 7659156 6525 9801
(10 5668539 6525 ) (10 10866577 9801 )
②相关分析中所涉及的变量 x 和 y 都是随机变量;回归分
析中,因变量 y 是随机变量,自变量 x 可以是随机变量 也可以是非随机的确定变量 ③相关分析主要是描述两个变量之间相关关系的密切程度 和方向; 回归分析不仅可以揭示变量 x 对变量 y 的影
响大小,还可以由回归方程进行预测和控制
二、回归模型的类型
2
( x x )( y y ) (x x ) ( y y)
2
2 2
2
或化简为
r
n x x n y y
2 2
n xy x y
相关系数的取值范围及其意义:
1. 2.
r 的取值范围是 [-1,1] | r | = 1,为完全相关 r = 1,为完全正相关 r = -1,为完全负相关
回归模型
一个自变量 两个及两个以上自变量
一元回归
多元回归
线性 回归
非线性 回归
线性 回归
非线性 回归
三、一元线性回归分析
(一)概念
当只涉及一个自变量时称为一元回归, 若因变量 y 与自变量 x 之间为线性关系时称 为一元线性回归。
(二)一元线性回归模型形式
只涉及一个自变量的简单线性回归模型可表示 为:
2
13 9156173.99 12827.5 7457 13 16073323.77 12827.5 13 5226399 7457
2
0.9987
人均国民收入与人均消费金额之间的相
关系数为 0.9987
相关分析的不足:
相关分析只能分析出变量之间是否 有相关关系,相关关系的形式、方向和 程度。但对于一个变量是如何随着另一 个(或一组)变量的变动而变动(即变 量之间的数量变动关系)无法说明。
解:计算表如下:
固定资 x 总产值y 产 xy 固定资产 y x x 总产值 y
2
x
2
y2
274576 1038361 407044 664225 833569 861184 366025 2298256 1485961 1637376 10866577
xy
166632 927290 127600 333335 387895 465856 189970 1834360 1245818 1989400 7659156
c
e } y y
^ (xi , yi)
x
最小二乘法( a 和 b 的计算公式)
四、回归方程的评价(估计标准误差 Sy
1. 2. 3.
实际观察值与回归估计值离差平方和的均方 根 反映实际观察值在回归直线周围的分散状况, 反映回归方程拟合的程度。 计算公式为:
五、利用回归方程进行估计和预测(点估计)
量之间的相关关系的密切程度和方向的一
种统计分析方法。
(二)方法
1、相关表: 例:教材P246页表9.1
2、相关图:散点图 3、指标计算:相关系数(线性相关条件下)
四、相关系数
(一)概念
相关系数是直线相关条件下说明两
个变量之间相关密切程度的统计分析指
标,用“r”表示。
(二)计算公式(积差法):
xy r x y
增加180万元。
(4)当固定资产为1300万元时,总产值为
多少?
y | x1300 392.85 0.9 1300 156285 (万元) .
当固定资产为1300万元时,总产值为
1562.85万元。
习题:某地区1998—2003年人均收入与某商品的 销售额资料如下: 年 份
318 910 200 409 514 502 314 1210 1022 1225 6525
524 1019 638 815 913 928 605 1516 1219 1624 9801
101124 828100 40000 167281 172225 252004 98596 1464100 1044484 1500625 5668539
(2)说明生产性固定资产价值每增加1万元, 年总产值增加多少万元?
某农副产品收购站,收购某种农副产品资料如下:
收购量(公斤) 产品等级 基期 一 二 三 2000 3000 5000 报告期 6000 4000 2000 基期 1500 1400 1100 报告期 1900 1600 1100 收购单价(元/公斤)
我国人均国民收入与人均消费金额数据
年份
1981 1982 1983 1984 1985 1986 1987
单位:元
人均 国民收入
393.8 419.14 460.86 544.11 668.29 737.73 859.97
人均 消费金额
249 267 289 329 406 451 513
年份
1988 1989 1990 1991 1992 1993
这就需要在相关分析的基础进一步 进行回归分析。
第二节 回归分析
一、回归分析
•
从一组样本数据出发,确定变量之间的数学
关系式
•
选择适当的回归模型,采用最小二乘法估计
回归模型中的待定系数。 利用所求的关系式,来预测或控制另一个特 定变量的取值。
•
3、回归分析与相关分析的区别
①相关分析中,变量 x 变量 y 处于平等的地位; 回归分析 中,变量 y 称为因变量,处在被解释的地位, x 称为自变量,用于预测因变量的变化。
对于自变量 x 的任一给定值x0 ,根据回归 方程可得到因变量 y 的一个估计值。
习题1
有10个同类企业的固定资产和总产值资
料如下:
企业编号 1 2 3 4 5 6 7 8 9 10 合计
固定资产(万元) 318 910 200 409 514 502 314 1210 1022 1225 6525
2、非线性相关
当变量x值发生变动时,变量y值也随 之发生变动,但这种变动是不均等的;或 从图形上看,观察点的分布情况表现为各
种不同的曲线形式。
(四)按涉及的变量的多少分
1、单相关:2个变量之间的相关关系
2、复相关:3个或3个以上的变量之间的相 关关系。可分解为多个单相关
进行分析。
总产值(万元) 524 1019 638 815 913 928 605 1516 1219 1624 9801
根据以上资料计算
(1)协方差和相关系数; (2)建立以总产值为因变量的一元线性回
归方程; (3)当固定资产改变200万元时,总产值平 均改变多少? (4)当固定资产为1300万元时,总产值为 多少?
yc a bx
(三)参数 a 和 b 的最小二乘估计 使因变量的观察值(y)与估计值(
yc
)
之间的离差平方和达到最小来求回归方程中的待 定系数 a 和 b ,即最小二乘估计法。
最小二乘法示图
y
i
(xn , yn)
(x2 , y2) (x1 , y1)
yc a bx
1998 1999 2400 11 2000 3000 15 2001 3200 14 2002 3500 17 2003 4000 20
2000 人均收入 (元) 10 销售额 (百万元)
要求:(1)判断人均收入与商品销售额之间的相关关系 的形式 (2)用最小平方法建立直线回归方程 (3)预测当人均收入为5000元时,该商品销售额 将达多少?
第七章 相关与回归分析
学习目标
1、掌握相关关系的概念和种类 2、掌握相关分析的基本方法 3、掌握一元线性回归的基本原理和参数的最小 二乘估计法 4、利用回归方程进行统计预测
分两节来讲:
第一节 相关关系与相关分析 第二节 简单线性回归分析
第一节 相关关系与相关分析
一、变量间的关系
(一)函数关系
设有两个变量 x 和 y ,变量 y 随变量 x的变
9801 6525 a y bx 0.9 392 .85 10 10
回归直线方程为:
ˆ y 392.85 0.9 x
(3)当固定资产改变200万元时,总产值平
均改变多少?
y 0.9x
y |x200 0.9 200 180 (万元)
当固定资产改变200万元时,总产值平均
人均 国民收入
1068.8 1169.2 1250.7 1429.5 1725.9 2099.5
人均 消费金额
643 690 713 803 947 1148
解:根据样本相关系数的计算公式有
r n x x n y y
2 2 2 2
n xy x y
(1)1)协方差——用以说明两指标之
间的相关方向。
2 xy
( x x )( y y ) n xy x y
n n2
10 7659156 6525 9801 126400 .35 0 100
计算得到的协方差为正数,说明固定资
产和总产值之间存在正相关关系。
3.
r = 0,不存在线性相关关系
完全负相关
无线性相关
完全正相关ຫໍສະໝຸດ Baidu
-1.0
-0.5
0
+0.5
+1.0
负相关程度增加
正相关程度增加
【例】在研究我国人均消费水平的问题中,把全 国人均消费额记为y,把人均国民收入记为x。 我们收集到1981~1993年的样本数据(xi ,yi),i =1,2,…,13,数据见表,计算相关系数。
二、相关关系的种类
(一)按相关程度不同分
1、完全相关:即函数关系
2、不完全相关:研究重点
3、完全不相关:即相互独立
(二)按相关的方向分
1、正相关:变动方向一致。 如:消费支出与工资收入 投入与产出 2、负相关:变动方向相反 如:商品销售额与商品流通费用率 物价与消费量
(三)按相关形式分:
1、线性相关 当变量x值发生变动时,变量y值发生 大致均等的变动;或从图形上看,观察点 的分布情况大致散布在一条直线周围。
可表示为 S = R2
(二)相关关系
特点: 1、一个变量的取值不是完全由另一个(或一组) 变量唯一确定。
2、当变量 x 取某个值时,变量 y 的取值可能有
几个,不是一一对应关系 概念:相关关系是变量之间确实存在着的数量上 的相互依存关系,但关系值是不固定的。
相关关系示图
y
化而变化,并完全依赖于 x ,则称 y 是 x 的函
数,记为 y = f (x),其中 x称为自变量,y 称为因
变量。
函数关系是一一对应的确定性关系。
函数关系的例子
在价格一定的情况下,某种商品的销售额(y) 与销售量(x)之间的关系 可表示为 y = p x (p 为单价)
圆的面积(S)与半径之间的关系
1、7个同类企业生产性固定资产年平均价值和年 总产值资料资料如下: (单位:万元)
企业编号 生产性固定 资产价值 年总产值 1 320 500 2 200 650 3 400 800 4 5 6 300 600 7 900 1200
450 500 900 950
要求:(1)建立以年总产值为因变量的直线回归方程
非线性相关
完全正线性相关
完全负线性相关
负线性相关
不相关
正线性相关
三、相关分析
(一)概念:
就是对变量之间的相关关系进行分析。 分析 一个变量与另外一个(或一组)变
x
相关关系的例子
商品的消费量(y)与居民收入(x)之间的关系
商品销售额(y)与广告费支出(x)之间的关系
粮食亩产量( y )与施肥量( x1 ) 、降雨量( x2 ) 、温度( x3 )之间的关系 收入水平( y )与受教育程度( x )之间的关系 父亲身高(y)与子女身高(x)之间的关系
0.95
计算得到的相关系数为0.95,表示两指标
为高度正相关。
(2)
n xy x y 10 7659156 6525 9801 b 2 2 n x ( x ) 10 5668539 65252
76591560 63951525 12640035 0.90 56685390 42575625 14109765
2)相关系数用以说明两指标之间的相关
方向和相关的密切程度。
r n xy x y
[n x 2 ( x) 2 ][n y 2 ( y ) 2 ]
10 7659156 6525 9801
(10 5668539 6525 ) (10 10866577 9801 )
②相关分析中所涉及的变量 x 和 y 都是随机变量;回归分
析中,因变量 y 是随机变量,自变量 x 可以是随机变量 也可以是非随机的确定变量 ③相关分析主要是描述两个变量之间相关关系的密切程度 和方向; 回归分析不仅可以揭示变量 x 对变量 y 的影
响大小,还可以由回归方程进行预测和控制
二、回归模型的类型
2
( x x )( y y ) (x x ) ( y y)
2
2 2
2
或化简为
r
n x x n y y
2 2
n xy x y
相关系数的取值范围及其意义:
1. 2.
r 的取值范围是 [-1,1] | r | = 1,为完全相关 r = 1,为完全正相关 r = -1,为完全负相关
回归模型
一个自变量 两个及两个以上自变量
一元回归
多元回归
线性 回归
非线性 回归
线性 回归
非线性 回归
三、一元线性回归分析
(一)概念
当只涉及一个自变量时称为一元回归, 若因变量 y 与自变量 x 之间为线性关系时称 为一元线性回归。
(二)一元线性回归模型形式
只涉及一个自变量的简单线性回归模型可表示 为:
2
13 9156173.99 12827.5 7457 13 16073323.77 12827.5 13 5226399 7457
2
0.9987
人均国民收入与人均消费金额之间的相
关系数为 0.9987
相关分析的不足:
相关分析只能分析出变量之间是否 有相关关系,相关关系的形式、方向和 程度。但对于一个变量是如何随着另一 个(或一组)变量的变动而变动(即变 量之间的数量变动关系)无法说明。
解:计算表如下:
固定资 x 总产值y 产 xy 固定资产 y x x 总产值 y
2
x
2
y2
274576 1038361 407044 664225 833569 861184 366025 2298256 1485961 1637376 10866577
xy
166632 927290 127600 333335 387895 465856 189970 1834360 1245818 1989400 7659156
c
e } y y
^ (xi , yi)
x
最小二乘法( a 和 b 的计算公式)
四、回归方程的评价(估计标准误差 Sy
1. 2. 3.
实际观察值与回归估计值离差平方和的均方 根 反映实际观察值在回归直线周围的分散状况, 反映回归方程拟合的程度。 计算公式为:
五、利用回归方程进行估计和预测(点估计)
量之间的相关关系的密切程度和方向的一
种统计分析方法。
(二)方法
1、相关表: 例:教材P246页表9.1
2、相关图:散点图 3、指标计算:相关系数(线性相关条件下)
四、相关系数
(一)概念
相关系数是直线相关条件下说明两
个变量之间相关密切程度的统计分析指
标,用“r”表示。
(二)计算公式(积差法):
xy r x y
增加180万元。
(4)当固定资产为1300万元时,总产值为
多少?
y | x1300 392.85 0.9 1300 156285 (万元) .
当固定资产为1300万元时,总产值为
1562.85万元。
习题:某地区1998—2003年人均收入与某商品的 销售额资料如下: 年 份
318 910 200 409 514 502 314 1210 1022 1225 6525
524 1019 638 815 913 928 605 1516 1219 1624 9801
101124 828100 40000 167281 172225 252004 98596 1464100 1044484 1500625 5668539
(2)说明生产性固定资产价值每增加1万元, 年总产值增加多少万元?
某农副产品收购站,收购某种农副产品资料如下:
收购量(公斤) 产品等级 基期 一 二 三 2000 3000 5000 报告期 6000 4000 2000 基期 1500 1400 1100 报告期 1900 1600 1100 收购单价(元/公斤)
我国人均国民收入与人均消费金额数据
年份
1981 1982 1983 1984 1985 1986 1987
单位:元
人均 国民收入
393.8 419.14 460.86 544.11 668.29 737.73 859.97
人均 消费金额
249 267 289 329 406 451 513
年份
1988 1989 1990 1991 1992 1993
这就需要在相关分析的基础进一步 进行回归分析。
第二节 回归分析
一、回归分析
•
从一组样本数据出发,确定变量之间的数学
关系式
•
选择适当的回归模型,采用最小二乘法估计
回归模型中的待定系数。 利用所求的关系式,来预测或控制另一个特 定变量的取值。
•
3、回归分析与相关分析的区别
①相关分析中,变量 x 变量 y 处于平等的地位; 回归分析 中,变量 y 称为因变量,处在被解释的地位, x 称为自变量,用于预测因变量的变化。
对于自变量 x 的任一给定值x0 ,根据回归 方程可得到因变量 y 的一个估计值。
习题1
有10个同类企业的固定资产和总产值资
料如下:
企业编号 1 2 3 4 5 6 7 8 9 10 合计
固定资产(万元) 318 910 200 409 514 502 314 1210 1022 1225 6525
2、非线性相关
当变量x值发生变动时,变量y值也随 之发生变动,但这种变动是不均等的;或 从图形上看,观察点的分布情况表现为各
种不同的曲线形式。
(四)按涉及的变量的多少分
1、单相关:2个变量之间的相关关系
2、复相关:3个或3个以上的变量之间的相 关关系。可分解为多个单相关
进行分析。
总产值(万元) 524 1019 638 815 913 928 605 1516 1219 1624 9801
根据以上资料计算
(1)协方差和相关系数; (2)建立以总产值为因变量的一元线性回
归方程; (3)当固定资产改变200万元时,总产值平 均改变多少? (4)当固定资产为1300万元时,总产值为 多少?
yc a bx
(三)参数 a 和 b 的最小二乘估计 使因变量的观察值(y)与估计值(
yc
)
之间的离差平方和达到最小来求回归方程中的待 定系数 a 和 b ,即最小二乘估计法。
最小二乘法示图
y
i
(xn , yn)
(x2 , y2) (x1 , y1)
yc a bx
1998 1999 2400 11 2000 3000 15 2001 3200 14 2002 3500 17 2003 4000 20
2000 人均收入 (元) 10 销售额 (百万元)
要求:(1)判断人均收入与商品销售额之间的相关关系 的形式 (2)用最小平方法建立直线回归方程 (3)预测当人均收入为5000元时,该商品销售额 将达多少?
第七章 相关与回归分析
学习目标
1、掌握相关关系的概念和种类 2、掌握相关分析的基本方法 3、掌握一元线性回归的基本原理和参数的最小 二乘估计法 4、利用回归方程进行统计预测
分两节来讲:
第一节 相关关系与相关分析 第二节 简单线性回归分析
第一节 相关关系与相关分析
一、变量间的关系
(一)函数关系
设有两个变量 x 和 y ,变量 y 随变量 x的变
9801 6525 a y bx 0.9 392 .85 10 10
回归直线方程为:
ˆ y 392.85 0.9 x
(3)当固定资产改变200万元时,总产值平
均改变多少?
y 0.9x
y |x200 0.9 200 180 (万元)
当固定资产改变200万元时,总产值平均
人均 国民收入
1068.8 1169.2 1250.7 1429.5 1725.9 2099.5
人均 消费金额
643 690 713 803 947 1148
解:根据样本相关系数的计算公式有
r n x x n y y
2 2 2 2
n xy x y
(1)1)协方差——用以说明两指标之
间的相关方向。
2 xy
( x x )( y y ) n xy x y
n n2
10 7659156 6525 9801 126400 .35 0 100
计算得到的协方差为正数,说明固定资
产和总产值之间存在正相关关系。
3.
r = 0,不存在线性相关关系
完全负相关
无线性相关
完全正相关ຫໍສະໝຸດ Baidu
-1.0
-0.5
0
+0.5
+1.0
负相关程度增加
正相关程度增加
【例】在研究我国人均消费水平的问题中,把全 国人均消费额记为y,把人均国民收入记为x。 我们收集到1981~1993年的样本数据(xi ,yi),i =1,2,…,13,数据见表,计算相关系数。
二、相关关系的种类
(一)按相关程度不同分
1、完全相关:即函数关系
2、不完全相关:研究重点
3、完全不相关:即相互独立
(二)按相关的方向分
1、正相关:变动方向一致。 如:消费支出与工资收入 投入与产出 2、负相关:变动方向相反 如:商品销售额与商品流通费用率 物价与消费量
(三)按相关形式分:
1、线性相关 当变量x值发生变动时,变量y值发生 大致均等的变动;或从图形上看,观察点 的分布情况大致散布在一条直线周围。
可表示为 S = R2
(二)相关关系
特点: 1、一个变量的取值不是完全由另一个(或一组) 变量唯一确定。
2、当变量 x 取某个值时,变量 y 的取值可能有
几个,不是一一对应关系 概念:相关关系是变量之间确实存在着的数量上 的相互依存关系,但关系值是不固定的。
相关关系示图
y
化而变化,并完全依赖于 x ,则称 y 是 x 的函
数,记为 y = f (x),其中 x称为自变量,y 称为因
变量。
函数关系是一一对应的确定性关系。
函数关系的例子
在价格一定的情况下,某种商品的销售额(y) 与销售量(x)之间的关系 可表示为 y = p x (p 为单价)
圆的面积(S)与半径之间的关系
1、7个同类企业生产性固定资产年平均价值和年 总产值资料资料如下: (单位:万元)
企业编号 生产性固定 资产价值 年总产值 1 320 500 2 200 650 3 400 800 4 5 6 300 600 7 900 1200
450 500 900 950
要求:(1)建立以年总产值为因变量的直线回归方程
非线性相关
完全正线性相关
完全负线性相关
负线性相关
不相关
正线性相关
三、相关分析
(一)概念:
就是对变量之间的相关关系进行分析。 分析 一个变量与另外一个(或一组)变
x
相关关系的例子
商品的消费量(y)与居民收入(x)之间的关系
商品销售额(y)与广告费支出(x)之间的关系
粮食亩产量( y )与施肥量( x1 ) 、降雨量( x2 ) 、温度( x3 )之间的关系 收入水平( y )与受教育程度( x )之间的关系 父亲身高(y)与子女身高(x)之间的关系