统计学课件 第七章 相关分析与回归分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
以x为自变量,y为因变量建立直线回归方程,并说明回归系数的经 济意义。
第三节 回归分析与一元线性回归
b
n xy x y n x2 ( x)2
10 23638 333502 1017083 3332
a y b x y bx
n
n
502 1.155 333 11.7385
10
10
1.155
yˆ a bx 11.73851.155x
表示固定资产价值每增加1亿元,工业增加值将平均增加1.155亿元。
第三节 回归分析与一元线性回归
求出回归方程后,可以利用其来进行预测,接前例,假设固定资产 价值为100亿元,请预测工业增加值为多少?
yˆ 11.73851.155x
11.73851.155100
y2 225 441 484 900 1444 1600 5041 6400 8100 9025 33660
单位:亿元 xy 估计值 150 23.2885 252 25.5985 286 26.7535 450 29.0635 760 34.8385 840 35.9935
2840 57.9385 4160 71.7985 6300 92.5885 7600 104.1385 23638 ------
n x2 ( x)2 n y2 ( y)2
10 23638 333502
1017083 3332 10 33660 5022
0.97
0.97>0.8,故生产性固定资产价值与工业增加值之间为高度正相关。
第二节 相关关系的判断
课堂练习:已知n=6,∑x=21,∑y=426,∑x2=79,∑y2=30268, ∑xy=1481。请计算相关系数?
第七章 相关分析与回归分析
◇相关分析的意义和种类 ◇相关关系的判断 ◇回归分析与一元线性回归
第一节 相关分析的意义和种类
一、相关关系的概念和种类
客观现象的相互联系,可以通过一定的数量关系反映出来。而这种 数量关系可以分为两种类型,即函数关系和相关关系。 ●函数关系:现象间存在严格依存的、确定的关系。 ●相关关系:客观现象之间存在的非确定的相互依存关系。特点:
r
(x x)(y y)
(x x)2 ( y y)2
很明显:r的取值为正或为负取决于分子。
1、协方差
2 xy
的作用
※显示x和y事正相关还是负相关; ※显示x和y相关程度的大小; 2、相关系数计算的简便公式
r
n xy x y
n x2 ( x)2 n y2 ( y)2
第二节 相关关系的判断
6
6
77.37
yˆ 77.37 1.82x
第三节 回归分析与一元线性回归
编号 1 2 3 4 5 6 7 8 9 10
合计
固定资产价值x 10 12 13 15 20 21 40 52 70 80 333
工业增加值y 15 21 22 30 38 40 71 80 90 95 502
x2 100 144 169 225 400 441 1600 2704 4900 6400 17083
例:已知10个企业的生产性固定资产价值及工业增加值数据资料如
下表:
单位:亿元
ห้องสมุดไป่ตู้
编号 1 2 3 4 5 6 7 8 9 10
合计
固定资产价值x 10 12 13 15 20 21 40 52 70 80 333
工业增加值y 15 21 22 30 38 40 71 80 90 95 502
x2 100 144 169 225 400 441 1600 2704 4900 6400 17083
第一节 相关分析的意义和种类
3、根据相关的形式不同划分,分为线性相关和非线性相关。 ●线性相关:即直线相关。 ●非线性相关:即曲线相关。 4、根据相关的程度分为不相关、完全相关(函数关系)和不完全 相关。 三、相关分析的主要内容 1、确定现象之间有无关系。 2、确定相关关系的表现形式。 3、测定相关关系的密切程度和方向。
sy
( y yˆ)2 n2
估计标准误差越小,表明实际值与估计值的离差越小,即回归方程 的代表性就越高。
sy
y2 a y b xy
n2
第三节 回归分析与一元线性回归
接前例:
单位:亿元
编号 固定资产价值x 工业增加值y
x2
y2
xy
1
10
15
100
225
150
2
12
21
144
441
252
3
第三节 回归分析与一元线性回归
2、联系 (1)相关分析是回归分析的基础和前提。 (2)回归分析是相关分析的深入和继续。 二、一元线性回归模型 (一)概念 又称简单直线回归模型,是根据两个变量的成对数据,配合直线方 程,再根据自变量的变动值,来推算因变量的估计值的一种统计分 析方法。
yˆ a bx
yˆ表示变量 y的估计值,也称 y的理论值
a表示截距,代表直线的起点值
b表示直线的斜率,又称 y对x的回归系数
b的实际意义是说明x每变化一个单位时,影响y平均变动的数量。 b前面的+或-还表示两个变量之间是正相关还是负相关。
第三节 回归分析与一元线性回归
(二)拟合一元线性回归模型的条件 1、两个变量之间确实存在显著的相关关系,即r的绝对值要大于 0.8。 2、两个变量之间确实存在直线相关关系。 3、应根据最小平方法的原理拟合一元线性回归模型。 (三)参数a、b的确定方法
第二节 相关关系的判断
(二)相关系数的计算
r
2 xy
x y
(x x)(y y)
n
(x x)2 (y y)2
n
n
n :资料项数
x y
(x x) 2 表示x变量的标准差
n
( y y) 2 表示y变量的标准差
n
2 xy
(x x)( y y) 表示x、y两个变量数列的协方差 n
第二节 相关关系的判断
第二节 相关关系的判断
一、表格法(相关表法)
(一)简单相关表
编制方法:先将自变量的值按照从小到大的顺序排列出来,然后将 因变量的值对应列上而排列成表格。(P208) (二)分组相关表
1、单变量相关表(P209) 2、双变量分组表(P209) 二、图示法(相关图法、散点图法)
1、强正相关 2、弱正相关 3、强负相关 4、弱负相关 5、非线性相关 6、不相关
a y b x y bx
n
n
b
n xy x y n x2 ( x)2
第三节 回归分析与一元线性回归
例:已知10个企业的生产性固定资产价值及工业增加值数据资料如
下表:
单位:亿元
编号 1 2 3 4 5 6 7 8 9 10
合计
固定资产价值x 10 12 13 15 20 21 40 52 70 80 333
工业增加值y 15 21 22 30 38 40 71 80 90 95 502
x2 100 144 169 225 400 441 1600 2704 4900 6400 17083
y2 225 441 484 900 1444 1600 5041 6400 8100 9025 33660
xy 150 252 286 450 760 840 2840 4160 6300 7600 23638
13
22
169
484
286
4
15
30
225
900
450
5
20
38
400
1444
760
6
21
40
441
1600
840
7
40
71
1600
5041 2840
8
52
80
2704
6400 4160
9
70
90
4900
8100 6300
10
80
95
6400
9025 7600
合计
333
502
17083 33660 23638
r
n xy x y
n x2 ( x)2 n y2 ( y)2
61481 21 426
6 79 212 6 30268 4262
0.91
第三节 回归分析与一元线性回归
一、回归分析的概念及与相关分析的关系 (一)回归分析的概念
●回归分析是在相关分析的基础上,考察变量之间的数量变化规律, 并通过一定的数学表达式描述它们之间的关系,进而确定一个或几 个变量对另一个特定变量的影响程度。 ●回归分析包括线性回归分析和非线性回归分析。 (二)回归分析与相关分析的区别与联系 1、区别 (1)相关分析研究的两个变量是对等关系,回归分析则不是,必 须根据研究目的确定自变量和因变量。 (2)对于两个变量只能计算出一个相关系数,回归分析则可确定 出两个回归方程。 (3)相关分析对资料的要求是,两个变量都是随机的,或一个随 机,另一个非随机。而回归分析的自变量是可以控制的变量,因变 量则是随机的。
127.238(5 亿元)
课堂练习:已知n=6,∑x=21,∑y=426,∑x2=79,∑y2=30268,
∑xy=1481。请在x和y之间建立直线回归方程?
b
n xy x y n x2 ( x)2
61481 21 426 6 79 212
1.82
a y bx
n
n
426 (1.82) 21
yˆ a bx 11.73851.155x
yˆ a bx 11.73851.155x
第三节 回归分析与一元线性回归
三、估计标准误差
建立回归方程的主要作用在于根据自变量的已知数据推算因变量的 估计值。这个估计值可能与因变量的实际值相等,也可能不相等, 因而就产生了估计值代表性高低的问题。显而易见,将一系列实际 值和估计值进行比较,可以发现其中存在一系列的离差,如何反映 这些离差的大小呢?一般是通过估计标准误差指标来测定。 定义:估计标准误差是说明回归方程代表性大小的统计分析指标。
y2 225 441 484 900 1444 1600 5041 6400 8100 9025 33660
xy 150 252 286 450 760 840 2840 4160 6300 7600 23638
计算生产性固定资产价值与工业增加值的相关系数;
第二节 相关关系的判断
r
n xy x y
A
3
B
5
C
6
D
7
E
9
合计
30
2
9
4
6
3
25
9
15
3
36
9
18
4
49
16
28
5
81
25
45
17
200
63
112
r
n xy x y
n x2 ( x)2 n y2 ( y)2
历年考题
1、对一般商品而言,价格与需求量之间的相关关系是( )
A.正相关 B.负相关
C.不相关 D.完全相关
2、变量x与x之间的负相关是指( )
yˆ a bx 11.73851.155x
第三节 回归分析与一元线性回归
sy
y2 a y b xy
n2
y2 33660 y 502
xy 23638
yˆ a bx 11.73851.155x
sy
33660 11.7385 502 1.155 23638 10 2
课堂练习:某连锁经营公司所属5个零售店某月的销售额和利润额 资料如下表:
商店名称
A
B
C
D
E
销售额(千万元) 3
5
6
7
9
利润额(百万元) 2
3
3
4
5
要求:(1)计算销售额和利润额之间的相关系数;
(2)用最小平方法计算利润额对销售额的回归直线方程;
(3)请在95.45%(t=2)的可靠性下推断当销售额为20千万元时 利润额的可能范围?
商店名称 销售额x 利润额y
x2
y2
xy
第二节 相关关系的判断
三、相关系数 (一)相关系数的意义
●相关系数是在直线相关条件下,说明两个现象之间相关关系密切 程度的统计分析指标。用r表示。 ●取值范围:介于-1和+1之间。即-1≤r≤+1。 *当r>0为正相关,r<0为负相关 *数值的绝对值越接近1,表示相关关系越强。 *如果r的绝对值为1,表示两个现象完全直线相关,即是函数关系。 *如果r为0,则表示两个现象不是直线相关,但不排除具有曲线相 关的可能。 ●判断标准: ※绝对值在0.3以下是无直线相关; ※绝对值在0.3到0.5之间是低度直线相关; ※绝对值在0.5到0.8之间是中度直线相关; ※绝对值在0.8以上是高度直线相关;
在相互依存的两个变量中,可以根据研究的目的,把其中的一个确 定为自变量,用x表示,另一个对应变化的变量则确定为因变量, 用y来表示。 2、现象之间数量上的关系不是确定的。 二、相关关系的种类 1、根据方向划分,可以分为正相关和负相关。 ●正相关:同涨同落,例:广告费投入与销售额之间。 ●负相关:此消彼长,例:价格与需求之间。 2、根据自变量的多少分为单相关和复相关 ●单相关:自变量只有一个。 ●复相关:自变量两个以上。
A.x的数值增大时,y值也随之增大
B.x的数值减小时,y值也随之减小
C.x数值增大(或减小)时,y值随之减小(或增大)
D.x数值增大(或减小)时,y值随之增大(或减小)