统计学原理第八章相关分析与回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
21
例1:P354页,第1题
企业 产量 X 单位成 XY
X2
Y2
序号 (4件) 本(元)Y
1
2
52
104
4
2704
2
3
54
162
9
2916
3
4
52
208
16
2704
4
4
48
192
16
2304
5
5
48
240
25
2304
6
6
∑
24
46
276
36
2116
300
1182
106 15048
即:∑X=24,∑Y=300, ∑XY=1182,
• 2) X倚Y的直线方程的确定
• 根据最小平方法的原理:(x xc )2 最小值
• 将xc = c + dy代入上述公式中,分别对c和d 求一阶偏导数,并令偏导数等于0,就可以
得出两个正规方程:
x nc dy yx cy dy2
d
nyx y n y2 (
x
y )2
c x dy
举例:P355,第4题。
• 偏相关:在复相关中,当假定其他变量不 变时,其中两个变量间的相关关系称为偏 相关。例如,在假定人们收入水平不变的 条件下,某种商品的需求与其价格水平的 关系就是一种偏相关。
9
三、相关分析与回归分析
• (一)相关分析 • 是用一个指标(相关系数)来表明现象
之间相互依存的密切程度。 • (二)回归分析 • 是根据相关关系的具体形态,选择一个
• 曲线相关:如果现象之间的相关关系近似 地表现为某种曲线形式时,就称这种相关 关系为曲线相关。
• (四)按涉及变量的多少来划分 • 单相关:是指两个变量之间的相关关系即
一个自变量和一个因变量的关系。
8
• 复相关:是指三个或三个以上变量间的相 关关系。即一个因变量对两个或两个以上 自变量之间的关系。如,某种商品的需求 与其价格水平以及人们收入水平之间的相 关关系便是一种复相关。
• 一、回归分析的概念和表现形式 • (一)回归分析的概念 • 相关分析只能说明现象之间的相关方向和相
关程度,但不能说明现象之间因果的数量关 系。要了解现象之间的因果数量关系必须运 用回归分析的方法。 • 回归分析:是对具有高度相关关系的变量之 间数量变化的一般关系进行测定,确定一个 相关的数学模型进行预测的统计方法。
用数学表达式来反映。例如:s πr 2
3
(二)相关关系
• 是指现象之间确实存在的,但关系数值不确 定的相互依存关系。即当一个或几个相互联 系的变量取一定数值时,与之相对应的另一 变量的取值虽然不确定,但它仍然按某种规 律在一定范围内变化。变量间的这种相互关 系称为具有不确定性的相关关系。例如,劳 动生产率与工资水平的关系、投资额与国民 收入的关系等等都属于相关关系。
1997 6.0 0.40 2.400
36
0.16
1998 6.4 0.52 3.328 40.96 0.2704
1999 6.8 0.55 3.740 46.24 0.3025
2000 7.5 0.58 4.350 56.25 0.3364
31
• 1)Y倚X的直线方程的确定
• 根据最小平方法的原理:(y yc )2 最小值
• 将yc = a + bx代入上述公式中,分别对a和b 求一阶偏导数,并令偏导数等于0,就可以
得出两个正规方程:
重要
y nabx xy ax bx2
b
nxy xy n x2 ( x)2
a y bx
32
33
X—汽车 货运量 (亿吨/千米)
Y—汽车 拥有量 (万辆)
NXY 1994 4.1 0.27 1995 4.5 0.31 1996 5.6 0.35 1997 6 0.4 1998 6.4 0.52 1999 6.8 0.55 0.8 2000 7.5 0.58 0.7
0.6
2001 8.5 0.6 0.5 2002 9.8 0.65 0.4 2003 11 0.73 0.3
30
3、简单回归方程的确定
• 简单回归直线方程的基本形式: • Y倚X的直线方程: yc = a + bx • X倚Y的直线方程: xc = c + dy • a和c是直线的截距,b和d是两条直线的回
归系数。a、b、c、d都是待定参数。确定 这些参数可以用不同的方法,但是统计中 最常使用的还是最小平方法。与第五章不 同的用自变量(x)代替时间(t)。
11
• (四)相关分析与回归分析的区别 • 1. 相关分析只研究变量间的相关方向和
相关程度,不必确定变量中哪个是自变 量,哪个是因变量,变量都是随机的。 • 2. 回归分析是对具有相关关系的变量间 的数量联系进行测定,必须事先确定变 量的类型。通常因变量是随机的,自变 量可以是随机的,也可以是非随机的。
27
(二)回归分析的表现形式
• 1. 直线回归分析:用一条直线来近似地 代表现象之间的一般数量关系。这条直 线在数学上叫做回归直线。
• 2. 曲线回归分析:用一条曲线来近似地 代表现象之间的一般数量关系。这条曲 线在数学上叫做回归曲线。曲线的形式 有抛物线、指数曲线、双曲线等。
28
二、直线回归分析
0.2 34
要求:(1)根据资料作散点图
汽车货运量与汽车拥有量的散点图
0.8
0.7
0.6
0.5
0.4
Y
0.3
0.2
0.1
0
0
2
4
6
8
10
12
35
年份 X
Y
XY
X2
Y2
1994 4.1 0.27 1.107 16.81 0.0729
1995 4.5 0.31 1.395 20.25 0.0961
1996 5.6 0.35 1.960 31.36 0.1225
收入
材材
3
538
942
消消
4
698
1097
费费
5 6
872
1284
988
1502
量量
7
807
1394
相
与 国
8 9
738 1025
1303 1555
关
10
1316
1917
表
民
11
1539
2051
收
12
1561
2111
入
13
1785
2286
14
1762
2311
15
1960
2003
16
1902
2435
15
29
①Y倚X的直线方程:Y是因变量,X是自变量
yc = a + bx ②X倚Y的直线方程:X是因变量,Y是自变量
xc = c + dy X和Y只能计算一个相关系数,但是却可以配 合两条回归方程。当两个变量不是互为因果 的关系时,则只能配合出一个条回归直线。 2、回归方程的作用 推算作用:给出自变量取值来推算因变量数值
相关的方向,具体数字说明了相关的程度
23
三、相关系数的密切程度
相关系数的变化范围在 -1到+1之间。负值代 表负相关,正值代表正相关。相关系数绝对 值的大小代表相关关系的密切程度。
(1) 0 < r < 1:正线性相关 (2) -1< r < 0:负线性相关 (3) r = 0: 线性无关 (4) r = 1: 完全正线性相关 (5) r= -1: 完全负线性相关
σ2 r xy
σσ xy
x数列与y数列的协方差
①
分别为x数列与y数列的 标准差
17
将上述公式展开:
σ2xy
(xx)(yy) 1
n
n
(x x)(y y)
σx
(x x)2 1
(xቤተ መጻሕፍቲ ባይዱ x)2
n
n
σy
(y y)2 1
(y y)2
n
n
18
再代入到原公式中,得:
r σ2xy σxσy
y
y
n
,得:
x
nx,
y
ny
xy nx y
r
x2 nx2
y2 ny2 ·····③
20
r
x
y
n
x
n
n
y
x2 n (
x )2 n2
y2 n(
y )2 n2
重要
r
nxy xy
···④
nx2 ( x)2 n y2 ( y)2
• 通过对基本公式的变形简化,可以不计算 离差直接根据历史资料计算相关系数。
5
二、相关关系的种类
• (一)按相关程度划分 • 完全相关:当一种现象的数量变化完全
由另一种现象的数量变化所确定时,两 者间的关系为完全相关。即函数关系。 因此函数关系是相关关系的一个特例。 • 不相关:当两种现象彼此互不影响,其 数量变化各自独立时,称为不相关。
6
• 例如,股票价格的高低与气温的高低是不 相关的。两者是不相关现象。
12
第二节 简单线性相关分析
一、相关图与相关表 二、相关系数的测定与应用 三、相关系数的密切程度
13
第二节 简单线性相关分析
• 一、相关图与相关表 • 相关图和相关表是相关分析的基本
工具,根据相关图可以直接判断现 象之间大致呈现何种关系形式。
14
N
钢钢
1 2
Y
X
国民
549 429
910 851
钢材消费量与国民收入
2500
2000
钢材消费量(万吨)
1500
1000
500
0
0
500 1000 1500 2000 2500 3000
(相关图) 国民收入(亿元)
16
• 二、相关系数的测定与应用 • (一)相关系数的定义 • 单相关分析是对两个变量之间的相关程度
进行分析。单相关分析所用的指标称为单 相关系数,简称相关系数,用 r 表示。 相关系数的定义式为:
n=6,∑X2 = 106, ∑Y2 = 15048
22
r
nxy xy
nx2 ( x)2 n y2 ( y)2
r
61182 24300
6 106 242 6 15048 3002
r 108
108
0.8216
60 288 7.746016.9706
• r =-0.8216,包含了两方面的内容:即两个变 量相关的方向和相关的程度。正负号说明了
(x x)(y y)
···②
(x x)2 (y y)2
• (二)相关系数的简捷计算方法
r
(xy xy xy xy)
(x2 2xx x2 ) (y2 2yy y2 )
19
r
xy x y yx nxy
x2 2x x nx2 y2 2y y ny2
根据:x
x
n
,
• 不完全相关:两个现象之间的关系介于完 全相关和不相关之间。此类相关关系是本 章研究的重点。
• (二)按相关方向划分 • 正相关:是指两个变量呈同向变动。如工
人的工资虽劳动生产率的提高而增加。 • 负相关:是指两个变量呈反向变动。如产
量规模越大,单位产品成本越低。
7
(三)按相关表现形式划分
• 直线相关:如果现象之间的相关关系近似 地表现为一条直线时,称之为直线相关。
第八章
相关分析与回归分析
1
第一节 基本概念
一、函数关系与相关关系 二、相关关系的种类 三、相关分析与回归分析
2
• 一、函数关系与相关关系 • 客观现象总是普遍联系和相互依存的。它们
之间的数量联系存在着两种不同的类型:一 种是函数关系;另一种是相关关系。 • (一)函数关系 • 是指现象之间存在严格的依存关系。即当一 个或几个变量取一定的数值时,另外一个变 量有确定的数值与之相对应。函数关系可以
合适的数学模型,来近似地表达变量之 间的平均变化关系。(高度相关)
10
• (三)相关分析与回归分析的联系 • 1. 它们有具有共同的研究对象。 • 2. 相关分析要依靠回归分析来表明现
象数量关系的具体形式。 • 3. 回归分析则要依靠相关分析来表明
现象数量变化的相关程度。只有变量 间存在高度相关时,进行回归分析寻 求其相关的具体形式才有意义。
4
(三)函数关系与相关关系之间的关系
• 变量之间的函数关系和相关关系,在一定 条件下是可以互相转化的。
• 本来具有函数关系的变量,当存在观测误 差时,其函数关系往往以相关关系的形式 表现出来。而具有相关关系的变量之间的 联系,如果我们对它们有了深刻的规律性 认识,并且能够把影响因变量变动的因素 全部纳入方程,此时相关关系也可能转化 为函数关系。
重要
24
• 为了判断时有个标准,有学者提出了相
关关系密切程度的等级,即相关系数在
0.3以下为不相关,0.3以上为有相关。
• 具体等级的划分如下:
重要
r ≥ 0.8 :强相关(高度相关) 0.5 ≤ r < 0.8 :中度相关(显著相关) 0.3 ≤ r < 0.5 :弱相关(低度相关)
r < 0.3 :不相关(无相关)
25
• 当计算相关系数的原始资料较多时, 比如50个以上,上述相关程度的等级 是可以相信的;但是,如果计算相关 系数所依据的历史资料较少,则相关 等级的可信度将会降低。此时,判断 相关等级的起点应该提高,要以0.4或 0.5为起点,这样判断相关等级的结果 才会于实际情况相吻合。
26
第三节 回归分析
• (一)简单直线回归分析(2个变量) • 1、简单直线回归分析的特点 • 随着自变量的变动,因变量按照大体相等
的逐期增长量进行变动的一般数量关系。 • 即因变量的逐期增长量大体相等。 • 1)进行回归分析时必须根据研究目的确定
自变量和因变量。 • 2)在两个变量互为因果的条件下,可以配
合两条回归直线方程: