统计学10相关与回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一定的线性关系,当r>0时,X与Y为正相关,当r<0时,X与 Y为负相关。
|r|的数值愈接近于1,表示x与y直线相关程度愈高;反之, |r|的数值 愈接近于0,表示x与y直线相关程度愈低。
通常判断的标准是: |r|<0.3称为微弱相关,0.3≤ |r|<0.5称为低度相关 ,0.5≤ |r|<0.8称为显著相关 ,0.8≤ |r|<1称为高度相关或强相关。
6
三、相关分析与回归分析
(一)概念:
相关分析:
就是用一个指标来表明现象间相互依存关系的密切程度。
回归分析:
是指对具有相关关系的现象,根据其相关关系的具体形态,选择 一个合适的数学模型(称为回归方程式),用来近似地表达变量 间的平均变化关系的一种统计分析方法。
7
(二)相关分析与回归分析的区别
简单说:
1、相关分析是回归分析的基础和前提; 2、回归分析是相关分析的深入和继续。
9
第二节 线性相关分析
定性分析 依据研究者的理论知识和实践经验,对客观现象之间 是否存在相关关系,以及何种关系作出判断。
定量分析 在定性分析的基础上,通过编制相关表、绘制相关图、 计算相关系数等方法,来判断现象之间相关的方向、 形态及密切程度。
上式中 ˆ1 表示人口每增加(或减少) 1千人,该种食品的年需求量平均来说增 加(或减少)0.5301十吨即5.301吨。
28
三、一元线性回归方程的检验
回归模型检验的种类 回归方程的拟合程度的评价 显著性检验
29
(一)回归模型检验的种类
回归模型的检验包括理论意义检验、一级检验和二级检验。 理论意义检验主要涉及参数估计值的符号和取值区间,如果它们与实
1. 总体回归线是未知的,只有一条。样本回归线是根据样本数据拟合的,每抽取一 组样本,便可以拟合一条样本回归线。
2. 总体回归函数中的β1和β2是未知的参数,表现为常数。而样本回归函数中的 ˆ1和ˆ2
是随机变量,其具体数值随所抽取的样本观测值不同而变动。 3. 总体回归函数中的ut是Yt与未知的总体回归线之间的纵向距离,它是不可直接观
10
53
11
430
12
372
13
236
14
157
15
370
年 需 求 量(十吨)y 162 120 223 131 67 169 81 192 116 55 252 234 144 103 212
26
人口增长 年 需 求
编号 量(千人)量(十吨) x2
x
y
合计 3626
2261 1067614
y2 395039
10
一、相关表
相关表:将自变量x的数值按照从小到大的顺序,并配合 因变量y的数值一一对应而平行排列的表。
例:为了研究分析某种劳务产品完成量与其单位产品成本之间的 关系,调查30个同类服务公司得到的原始数据如表。
完成量(小时) 20 50 20 30 50 20 50 40 20 80 40 20 50 80 30 单位成本(元/小时) 16 16 18 16 15 18 15 14 16 14 15 16 14 15 15
第一节 基本概念
一、函数关系与相关关系
函数关系:当一个或几个变量取一定的值时,另一 个变量有确定值与之相对应,称为确定性的函数关 系。
函数关系的特点
1. 是一一对应的确定关系 2. 设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完全依赖于
x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量
完成量(小时) 20 30 20 20 40 30 40 80 80 50 40 30 20 80 50 单位成本(元/小时) 18 16 16 15 16 15 15 14 14 15 15 16 18 14 14
11
整理后
完成量(小时) 20 20 20 20 20 20 20 20 20 30 30 30 30 30 40 单位成本(元/小时) 15 16 16 16 16 18 18 18 18 15 15 15 16 16 14
8
(三)相关分析与回归分析的联系
相关分析和回归分析有着密切的联系,它们不仅具有 共同的研究对象,而且在具体应用时,常常必须互相 补充。相关分析需要依靠回归分析来表明现象数量相 关的具体形式,而回归分析则需要依靠相关分析来表 明现象数量变化的相关程度。只有当变量之间存在着 高度相关时,进行回归分析寻求其相关的具体形式才 有意义。
18
人口增长 年 需 求
编号 量(千人)量(十吨) x2
x
y
合计 3626
2261 1067614
y2 395039
xy 647851
r
nxyx y
n
x2
x2
n
y2
y2
15647851-36262261
151067614-36262
15395049-
22612
0.995
19
(四)相关系数的显著性检验
例:
广告费(万元)
30 33 33 40 56 58 65 72 80 80 90
年销售收入(百万元) 12 12 12 13 14 14 20 22 26 26 30
13
相关图
销售收入(百万元)
40
20
0 0
50
100
广告费(万元)
14
Co(vX,Y)
Va(rX)Va(Yr)
三、相关系数
(一)相关系数的定义:
3
二、相关关系的种类
按相关形式划分
线性相关:
当两种相关现象之间的关系大致呈现为线性关系 时,称之为线性关关。
非线性相关:
如果两种相关现象之间,并不表现为直线的关系 ,而是近似于某种曲线方程的关系,则这种相关 关系称为非线性相关。
4
二、相关关系的种类
按相关的方向划分
正相关:
两个相关现象间,当一个变量的数值增加(或减少)时,另一 个变量的数值也随之增加(或减少),即同方向变化。
一、回归函数
总体回归函数:Yt=β0+β1Xt+ut
u t是随机误差项,又称随机干扰项,它是一个特殊 的随机变量,反映未列入方程式的其他各种因素对 Y的影响。
样本回归函数: Y t ˆ0ˆ1Xet
et称为残差,在概念上,et与总体误差项ut相互对 应;n是样本的容量。
22
样本回归函数与总体回归函数区别
检验两个变量之间是否存在线性相关关系
采用 t 检验
检验的步骤为
提出假设:H0: ;H1: 0
计算检验的统计量: t r n2~t(n2)
1r2
确定显著性水平,并作出决策
若 t > t,拒绝 H0
若 t < t,接受 H0
20
例:对前例计算的相关系数进行显著性检验 (0.05)
加以整理后有:
nˆ0ˆ1 Xt Yt ˆ0 Xt ˆ1 X2 t XtYt
24
ˆ1
nx y(x)(y) nx2 (x)2
ˆ0
y
n
ˆ1
x
n
y
ˆ1x
25
例:现以前例的资料配合回归直线,计算如下:
编号
人口增长量(千人)x
1
274
2
180
3
375
4
205
5
86
6
265
7
98
8
330
9
195
在线性条件下说明两个变量之间相关关系密切程度的统 计分析指标。
总体相关系数:相关系数是根据总体全部数据计算的,记为
Co(vX,Y)
Va(rX)Va(Yr) 样本相关系数:根据样本数据计算的,记为 r
r (XtX)Y (tY) (Xt X)2(Yt Y)2
15
(二)相关系数的特点
r的取值介于-1与1之间; 在大多数情况下,0<|r|<1,即X与Y的样本观测值之间存在着
n xy x y
n x2 x2 n y2 y2
17
例:下表是有关15个地区某种食物需求量和地区人口增 加量的资料。
编号
人口增长量(千人)x
1
274
2
180
3
375
4
205
5
86
6
265
7
98
8
330
9
195
10
53
11
430
12
372
13
236
14
157
15
370
年 需 求 量(十吨)y 162 120 223 131 67 169 81 192 116 55 252 234 144 103 212
3. 当变量 x 取某个值时,变量 y 的取值可能有几个。
2
二、相关关系的种类
按相关关系的程度划分
完全相关:
当一个现象的数量变化完全由另一个现象的数量变化所确 定时,称这两种现象间的关系为完全相关。
不相关:
当两种现象彼此互不影响,其数量变化各自独立时,称为 不相关现象。
不完全相关:
两个现象之间的关系介于相关和不相关之间,称为不完全 相关。
完成量(小时) 40 40 40 40 50 50 50 50 50 50 80 80 80 80 80 单位成本(元/小时) 15 15 15 16 14 14 15 15 15 16 14 14 14 14 15
12
二、相关图
相关图/散点图:以直角坐标系的横轴代表变量x ,纵轴代表变量y,将两个变量间相对应的变量值 用坐标点的形式描绘出来,用来反映两变量之间 的相关关系的图形。
在相关分析中,不必确定自变量和因变量;而在回归分析中,必 须事先确定哪个为自变量,哪个为因变量,而且只能从自变量去 推测因变量,而不能从因变量去推断自变量。
相关分析不能指出变量间相互关系的具体形式;而回归分析能确 切的指出变量之间相互关系的具体形式,它可根据回归模型从已 知量估计和预测未知量。
相关分析所涉及的变量一般都是随机变量,而回归分析中因变量 是随机的,自变量则作为研究时给定的非随机变量。
1
第一节 基本概念
一、函数关系与相关关系
相关关系: 当一个或几个相互联系的变量取一 定数值时,与之相对应的另一变量的值虽然不确 定,但它仍按某种规律在一定的范围内变化。变 量之间的这种关系称为相关关系。
相关关系的特点
1. 变量间关系不能用函数关系精确表达;
2. 一个变量的取值不能由另一个变量唯一确定;
测的。而样本回归函数中的et是Yt与样本回归线之间的纵向距离,当根据样本观 测值拟合出样本回归线之后,可以计算出et的具体数值。
综上所述,样本回归函数是对总体回归函数的近似反应。回归分析的主要 任务就是要采用适当的方法,充分利用样本所提供的信息,使得样本回归 函数尽可能地接近于真实的总体回归函数。
负相关:
当一个变量的数值增加(或减少)时,而另一个变量的数值相 反地呈减少(或增加)趋势变化,即反方向变化。
5
二、相关关系的种类
按研究的变量划分
单相关:
两个变量之间的相关,称为单相关
复相关:
当所研究的是一个变量对两个或两个以上其他变量的相关关系 时,称为复相关。
偏相关:
在某一现象与多种现象相关的场合,假定其他变量不变,专门 考察其中两个变量的相关关系称为偏相关。
质性科学的理论以及人们的实践经验不相符,就说明模型不能很好的 解释现实的现象。 一级检验/统计学检验:它是利用统计学中的抽样理论来检验样本回 归方程的可靠性。具体又分为拟合程度评价和显著性检验。 二级检验/经济计量学检验:它是对标准线性回归模型的假定条件能 否得到满足进行检验。具体包括序列相关检验、异方差性检验、多重 共线性检验等。
23
二、最小二乘法拟合回归方程
Y t ˆ0ˆ1Xet
Yˆt ˆ0ˆ1X
原理:使残差平方和最小
Q e 2 t Y t Y ˆ t2 Y t ˆ 0 ˆ 1 X t2 最小值
将 Q对 ˆ1和 ˆ2求偏导数,并 零令 ,其 可等 得于
2 Y tˆ0ˆ1Xt 0 2 Xt Y tˆ0ˆ1Xt 0
如果|r|=1,则表明X与Y完全线性相关,当r=1时,称为完全正相 关,而r=-1时,称为完全负相关。
r是对变量之间线性相关关系的度量。
r=0只是表明两个变量之间不存在线性关系,它并不意味着X与Y之间不 存在其他类型的关系。
16
(三)相关系数的计算
r (x x)(y y) (x x)2(y y)2
1. 提出假设:H0: ;H1: 0
2. 计算检验的统计量
t0.99 510 524.8 385 10.99250
3. =0.05,查表得 t(n-2)=2.160 ∵t=48.385>t(15-2)=2.160, ∴拒绝H0,该种食物需求量和地区人口增加量之间的相
关关系显著。
21
第三节 一元线性回归
xy 647851
ˆ1
nxy(x)( nx2 (x)2
y)
15647851-36262261 151067614-36262
0.5301
ˆ0
n
yLeabharlann Baidu
ˆ1
n
x
2261-0.5301 3626
15
15
22.5905
27
所 y ˆ 以 ˆ0 ˆ1 x 2.5 29 0 .5 03 5 x01
|r|的数值愈接近于1,表示x与y直线相关程度愈高;反之, |r|的数值 愈接近于0,表示x与y直线相关程度愈低。
通常判断的标准是: |r|<0.3称为微弱相关,0.3≤ |r|<0.5称为低度相关 ,0.5≤ |r|<0.8称为显著相关 ,0.8≤ |r|<1称为高度相关或强相关。
6
三、相关分析与回归分析
(一)概念:
相关分析:
就是用一个指标来表明现象间相互依存关系的密切程度。
回归分析:
是指对具有相关关系的现象,根据其相关关系的具体形态,选择 一个合适的数学模型(称为回归方程式),用来近似地表达变量 间的平均变化关系的一种统计分析方法。
7
(二)相关分析与回归分析的区别
简单说:
1、相关分析是回归分析的基础和前提; 2、回归分析是相关分析的深入和继续。
9
第二节 线性相关分析
定性分析 依据研究者的理论知识和实践经验,对客观现象之间 是否存在相关关系,以及何种关系作出判断。
定量分析 在定性分析的基础上,通过编制相关表、绘制相关图、 计算相关系数等方法,来判断现象之间相关的方向、 形态及密切程度。
上式中 ˆ1 表示人口每增加(或减少) 1千人,该种食品的年需求量平均来说增 加(或减少)0.5301十吨即5.301吨。
28
三、一元线性回归方程的检验
回归模型检验的种类 回归方程的拟合程度的评价 显著性检验
29
(一)回归模型检验的种类
回归模型的检验包括理论意义检验、一级检验和二级检验。 理论意义检验主要涉及参数估计值的符号和取值区间,如果它们与实
1. 总体回归线是未知的,只有一条。样本回归线是根据样本数据拟合的,每抽取一 组样本,便可以拟合一条样本回归线。
2. 总体回归函数中的β1和β2是未知的参数,表现为常数。而样本回归函数中的 ˆ1和ˆ2
是随机变量,其具体数值随所抽取的样本观测值不同而变动。 3. 总体回归函数中的ut是Yt与未知的总体回归线之间的纵向距离,它是不可直接观
10
53
11
430
12
372
13
236
14
157
15
370
年 需 求 量(十吨)y 162 120 223 131 67 169 81 192 116 55 252 234 144 103 212
26
人口增长 年 需 求
编号 量(千人)量(十吨) x2
x
y
合计 3626
2261 1067614
y2 395039
10
一、相关表
相关表:将自变量x的数值按照从小到大的顺序,并配合 因变量y的数值一一对应而平行排列的表。
例:为了研究分析某种劳务产品完成量与其单位产品成本之间的 关系,调查30个同类服务公司得到的原始数据如表。
完成量(小时) 20 50 20 30 50 20 50 40 20 80 40 20 50 80 30 单位成本(元/小时) 16 16 18 16 15 18 15 14 16 14 15 16 14 15 15
第一节 基本概念
一、函数关系与相关关系
函数关系:当一个或几个变量取一定的值时,另一 个变量有确定值与之相对应,称为确定性的函数关 系。
函数关系的特点
1. 是一一对应的确定关系 2. 设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完全依赖于
x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量
完成量(小时) 20 30 20 20 40 30 40 80 80 50 40 30 20 80 50 单位成本(元/小时) 18 16 16 15 16 15 15 14 14 15 15 16 18 14 14
11
整理后
完成量(小时) 20 20 20 20 20 20 20 20 20 30 30 30 30 30 40 单位成本(元/小时) 15 16 16 16 16 18 18 18 18 15 15 15 16 16 14
8
(三)相关分析与回归分析的联系
相关分析和回归分析有着密切的联系,它们不仅具有 共同的研究对象,而且在具体应用时,常常必须互相 补充。相关分析需要依靠回归分析来表明现象数量相 关的具体形式,而回归分析则需要依靠相关分析来表 明现象数量变化的相关程度。只有当变量之间存在着 高度相关时,进行回归分析寻求其相关的具体形式才 有意义。
18
人口增长 年 需 求
编号 量(千人)量(十吨) x2
x
y
合计 3626
2261 1067614
y2 395039
xy 647851
r
nxyx y
n
x2
x2
n
y2
y2
15647851-36262261
151067614-36262
15395049-
22612
0.995
19
(四)相关系数的显著性检验
例:
广告费(万元)
30 33 33 40 56 58 65 72 80 80 90
年销售收入(百万元) 12 12 12 13 14 14 20 22 26 26 30
13
相关图
销售收入(百万元)
40
20
0 0
50
100
广告费(万元)
14
Co(vX,Y)
Va(rX)Va(Yr)
三、相关系数
(一)相关系数的定义:
3
二、相关关系的种类
按相关形式划分
线性相关:
当两种相关现象之间的关系大致呈现为线性关系 时,称之为线性关关。
非线性相关:
如果两种相关现象之间,并不表现为直线的关系 ,而是近似于某种曲线方程的关系,则这种相关 关系称为非线性相关。
4
二、相关关系的种类
按相关的方向划分
正相关:
两个相关现象间,当一个变量的数值增加(或减少)时,另一 个变量的数值也随之增加(或减少),即同方向变化。
一、回归函数
总体回归函数:Yt=β0+β1Xt+ut
u t是随机误差项,又称随机干扰项,它是一个特殊 的随机变量,反映未列入方程式的其他各种因素对 Y的影响。
样本回归函数: Y t ˆ0ˆ1Xet
et称为残差,在概念上,et与总体误差项ut相互对 应;n是样本的容量。
22
样本回归函数与总体回归函数区别
检验两个变量之间是否存在线性相关关系
采用 t 检验
检验的步骤为
提出假设:H0: ;H1: 0
计算检验的统计量: t r n2~t(n2)
1r2
确定显著性水平,并作出决策
若 t > t,拒绝 H0
若 t < t,接受 H0
20
例:对前例计算的相关系数进行显著性检验 (0.05)
加以整理后有:
nˆ0ˆ1 Xt Yt ˆ0 Xt ˆ1 X2 t XtYt
24
ˆ1
nx y(x)(y) nx2 (x)2
ˆ0
y
n
ˆ1
x
n
y
ˆ1x
25
例:现以前例的资料配合回归直线,计算如下:
编号
人口增长量(千人)x
1
274
2
180
3
375
4
205
5
86
6
265
7
98
8
330
9
195
在线性条件下说明两个变量之间相关关系密切程度的统 计分析指标。
总体相关系数:相关系数是根据总体全部数据计算的,记为
Co(vX,Y)
Va(rX)Va(Yr) 样本相关系数:根据样本数据计算的,记为 r
r (XtX)Y (tY) (Xt X)2(Yt Y)2
15
(二)相关系数的特点
r的取值介于-1与1之间; 在大多数情况下,0<|r|<1,即X与Y的样本观测值之间存在着
n xy x y
n x2 x2 n y2 y2
17
例:下表是有关15个地区某种食物需求量和地区人口增 加量的资料。
编号
人口增长量(千人)x
1
274
2
180
3
375
4
205
5
86
6
265
7
98
8
330
9
195
10
53
11
430
12
372
13
236
14
157
15
370
年 需 求 量(十吨)y 162 120 223 131 67 169 81 192 116 55 252 234 144 103 212
3. 当变量 x 取某个值时,变量 y 的取值可能有几个。
2
二、相关关系的种类
按相关关系的程度划分
完全相关:
当一个现象的数量变化完全由另一个现象的数量变化所确 定时,称这两种现象间的关系为完全相关。
不相关:
当两种现象彼此互不影响,其数量变化各自独立时,称为 不相关现象。
不完全相关:
两个现象之间的关系介于相关和不相关之间,称为不完全 相关。
完成量(小时) 40 40 40 40 50 50 50 50 50 50 80 80 80 80 80 单位成本(元/小时) 15 15 15 16 14 14 15 15 15 16 14 14 14 14 15
12
二、相关图
相关图/散点图:以直角坐标系的横轴代表变量x ,纵轴代表变量y,将两个变量间相对应的变量值 用坐标点的形式描绘出来,用来反映两变量之间 的相关关系的图形。
在相关分析中,不必确定自变量和因变量;而在回归分析中,必 须事先确定哪个为自变量,哪个为因变量,而且只能从自变量去 推测因变量,而不能从因变量去推断自变量。
相关分析不能指出变量间相互关系的具体形式;而回归分析能确 切的指出变量之间相互关系的具体形式,它可根据回归模型从已 知量估计和预测未知量。
相关分析所涉及的变量一般都是随机变量,而回归分析中因变量 是随机的,自变量则作为研究时给定的非随机变量。
1
第一节 基本概念
一、函数关系与相关关系
相关关系: 当一个或几个相互联系的变量取一 定数值时,与之相对应的另一变量的值虽然不确 定,但它仍按某种规律在一定的范围内变化。变 量之间的这种关系称为相关关系。
相关关系的特点
1. 变量间关系不能用函数关系精确表达;
2. 一个变量的取值不能由另一个变量唯一确定;
测的。而样本回归函数中的et是Yt与样本回归线之间的纵向距离,当根据样本观 测值拟合出样本回归线之后,可以计算出et的具体数值。
综上所述,样本回归函数是对总体回归函数的近似反应。回归分析的主要 任务就是要采用适当的方法,充分利用样本所提供的信息,使得样本回归 函数尽可能地接近于真实的总体回归函数。
负相关:
当一个变量的数值增加(或减少)时,而另一个变量的数值相 反地呈减少(或增加)趋势变化,即反方向变化。
5
二、相关关系的种类
按研究的变量划分
单相关:
两个变量之间的相关,称为单相关
复相关:
当所研究的是一个变量对两个或两个以上其他变量的相关关系 时,称为复相关。
偏相关:
在某一现象与多种现象相关的场合,假定其他变量不变,专门 考察其中两个变量的相关关系称为偏相关。
质性科学的理论以及人们的实践经验不相符,就说明模型不能很好的 解释现实的现象。 一级检验/统计学检验:它是利用统计学中的抽样理论来检验样本回 归方程的可靠性。具体又分为拟合程度评价和显著性检验。 二级检验/经济计量学检验:它是对标准线性回归模型的假定条件能 否得到满足进行检验。具体包括序列相关检验、异方差性检验、多重 共线性检验等。
23
二、最小二乘法拟合回归方程
Y t ˆ0ˆ1Xet
Yˆt ˆ0ˆ1X
原理:使残差平方和最小
Q e 2 t Y t Y ˆ t2 Y t ˆ 0 ˆ 1 X t2 最小值
将 Q对 ˆ1和 ˆ2求偏导数,并 零令 ,其 可等 得于
2 Y tˆ0ˆ1Xt 0 2 Xt Y tˆ0ˆ1Xt 0
如果|r|=1,则表明X与Y完全线性相关,当r=1时,称为完全正相 关,而r=-1时,称为完全负相关。
r是对变量之间线性相关关系的度量。
r=0只是表明两个变量之间不存在线性关系,它并不意味着X与Y之间不 存在其他类型的关系。
16
(三)相关系数的计算
r (x x)(y y) (x x)2(y y)2
1. 提出假设:H0: ;H1: 0
2. 计算检验的统计量
t0.99 510 524.8 385 10.99250
3. =0.05,查表得 t(n-2)=2.160 ∵t=48.385>t(15-2)=2.160, ∴拒绝H0,该种食物需求量和地区人口增加量之间的相
关关系显著。
21
第三节 一元线性回归
xy 647851
ˆ1
nxy(x)( nx2 (x)2
y)
15647851-36262261 151067614-36262
0.5301
ˆ0
n
yLeabharlann Baidu
ˆ1
n
x
2261-0.5301 3626
15
15
22.5905
27
所 y ˆ 以 ˆ0 ˆ1 x 2.5 29 0 .5 03 5 x01