(精品) 应用统计课件:相关与回归分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
)
D(Yˆ0
)
[1
1 n
(
X
0X S XX
)2
]
2
Y0
Y0
~
N 0,
[1
1 n
(
X
0X S XX
)2
]
2
24
由:
(Y0 Yˆ0 ) 0
~ N (0,1)
1
1
(X0
X
)2
n
S XX
可得:
Y0 Y 0
~ t(n 2)
Se
1 1 (X0 X )2
n
S XX
则Y0的1-α置信区间:
(X
X )2 D(Y )
S
2 XX
SXX 2
S
2 XX
2
S XX
13
。
② β1的置信区间
由b1的抽样分布可得:
z b1 1 ~ N (0,1) 2
S XX
但由于σ未知,可用样本数据计算标准差Se进行估计
S
2 e
(Y Y )2 n p 1
其中 n:样本数据个数; p:自变量个数。
14
由第四章知识可知,
X 2 12206 3442 372.4
n
10
t (n 2) t0.025 (8) 2.306 2
0.06493 0.016132 (0.048798 ,0.081062 )
即当工业总产值增加10亿元时,货运总量平均增加487.9万 吨至810.6万吨,概率保证为95%。
16
使用Excel中的数据分析功能,可以得到如下结果:
t b1 1 ~ t(n 2)
Se2 S XX
则β1 的置信度为(1-α)的置信区间:
b1
t
(n
2)
2
Se S XX
,
b1
t
(n
2)
2
Se S XX
15
根据【例8.1】数据计算,(1-α=0.95),可得
Se
Y 2 b0
Y b1
XY 0.1350
n2
SXX
X2
D(Yˆ0) D[Y
b1( X0
X )]
n 2
n2
(X0
X )2
2
S XX
[1 (X0 X )2 ] 2
n
S XX
21
根据第四章的相关定理有:
Y 0 E(Y0 )
~ N (0,1)
1
(X
0
X
)2
n
S XX
由于σ未知,所以由t分布给出置信区间:
Y 0 E(Y0 )
~ t(n 2)
上式称为Y关于X的一元线性回归方程。 2、模型的基本特征
Yi ~ N ( 0 1 X i , 2 )
i=1,2,3 ,…
6
Y
X
□ Yi是随机变量; □ 期望值在直线上 ; □ 方差等于随机误差的方差; □ 离差等于随机误差;
Yi 0 1 X i i E(Yi ) 0 1 X i
35
检验统计量: 检验准则:
F
SM2 SR Se2
~
F (1, n 2)
F落入接受域,β=0 ,X与Y不存在线性关系;
F落入拒绝域, β ≠ 0,X与Y线性关系显著。
36
方差分析表
方差来源
自由度 df
平方和 SS
方差(均方) MS
F值
回归 剩余
p
(Yˆ Y )2
n-p-1 (Y Yˆ)2
(Yˆ Y )2
D(Yi ) D(i ) 2
Yi E(Yi ) i
7
【例8.1】某市货运总量与工业总产值10年的数据 如表所示,两个变量有怎样的关系?
年份 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010
货运总量(亿吨) 2.8 2.9 3.2 3.2 3.4 3.2 3.3 3.7 3.9 4.2
nSXX
X22 nSXX
18
② β0的置信区间
z
b0 0 ~ N (0,1)
X22
nS XX
由t分布可得置信区间
t
b0 0 ~ t(n 2)
Se2 X 2
nS XX
b0
t
(n
2)
Se
2
X2 nSXX
,
b0
t
2
(n
2)
Se
X 2
nSXX
19
三、因变量的估计
1、点估计
由Y关于X的线性回归方程式,根据给定的X值可以得到 因变量Y的点估计值。
--2-22
--3-33
特例:单相关按方向可以分为 正相关:当X增加(减少),Y则随之增加(减少)。 负相关:当X增加(减少),Y随之减少(增加)。
4
§8.2 一元线性回归分析
一 、回归模型
由一个自变量(X)与一个因变量(Y)所形成的线性相关模 型,称为回归模型。记为:
1、一元回归模型及回归方程
Yi 0 1 X i i
3.相关系数的相关性检验
32
统计量:
r
t
~ t (n 2)
1 r2 2
n2
假设 H : ρ=0 ; H : ρ≠0
t落入接受域,ρ=0,X和Y非线性相关。
t落入拒绝域,ρ≠0 , X与Y显著线性相关。
33
二、t 检验法(线性假设的显著性检验)
~
t b1 1 ~ t (n 2)
Se2
2
S XX
r
n XY X Y
[n X 2 ( X )2 ][nY 2 (Y )2 ]
另外,利用‘皮尔逊’积差法也可得:
r S XY S XX SYY
31
2相关系数的特点
±1
完全相关
± 0.8~1 高度相关
r = ± 0.5~0.8 显著相关
± 0.3~0.5 低度相关
± 0~0.3 微相关
0
无线性关系
12
2、方程参数的区间估计方法 (1) β1的区间估计
① b1的抽样分布
b1 ~ N 1, 2 S XX
(X X )Y
E(b1) E
S XX
( X X )E(Y ) 0
S XX
( X X ) 1
S XX
(X X)X
1
(X X )Y
D(b1) D
S XX
相关与回归分析
§8.1 回归分析的基本问题
一、变量关系的类型
□ 函数关系 变量之间依一定的函数形式所形成的一一对应的关系。
□ 相关关系 变量之间存在的非严格的依存关系,又叫统计关系。
□ ? 关系
1
二、回归分析与相关分析
□ 回归分析(regression) 研究变量之间关系的形式、类型,以确定变量之间 关系的数学模型为最终目的;
i=1,2,3 ,…
其中:
i ~ N (0, 2 )
随机误差
1 回归直线的斜率;回归系数
0 回归直线的截距;
5
当由n个不全相等的x1, x2, … ,xn,作独立试验,得样
本数据(x1,y1),( x2,y2),… ,(xn,yn)即可得到β0,β1的
估计 值 b0,b1
Yi b0 b1X i
根据【例8.1】数据计算,当工业总产值为500亿元时, 即X=50,代入回归方程,
Y 1.1464 0.06493X
得: Y 4.3914
20
2、区间估计 ①E(Y0)的区间估计 □ 抽样分布
Y
0
~
N
0
1X 0 ,
2
1
n
(X0 X
S XX
)2
E(Yˆ0) E(b0 b1X0) 0 1X0 E(Y0)
Se
1
(X0
X
)2
n
S XX
22
E(Y0 ) 的1-α置信区间
Y 0 t (n 2) Se
2
1 n
(
X
0X
S XX
)2
根据【例8.1】数据计算,当工业总产值为500亿元时, 求平均估计值的置信区间。1 a 0.95
Y 0 4.3914
t0.025 (8) 2.306
工业总产值(10亿元) 25 27 29 32 34 36 35 39 42 45
8
【例8.1】某市货运总量与工业总产值10年的数据 如表所示,两个变量有怎样的关系?
4.50
4.00
3.50
3.00
2.50
2.00 1.50
设:
Yˆi b0 b1Xi
1.00
0.50
0.00
0
10
20
30
40
50
9
二 未知参数的估计
已知Y关于X 的一元线性回归模型 Yi 0 1 X i i
1、方程参数的点估计方法----最小二乘法
n
n
令:
(Yi Yi )2 (Yi b0 b1X i )2 min
i 1
i 1
2 b0
(Y b0 b1 X ) 0
2
b1
(Y b0 b1 X ) X 0
10
经整理得:
b1
n XY X Y n X 2 ( X )2
(X X )Y (X X )2
b0
Y
n
b1
X
n
使用【例8.1】数据计算,可得
b1
n XY X Y n X 2 ( X )2
10
11869.9 1012206
33.8 344 3342
0.0649
b0
Y
n
b1
X
n
33.8 0.0649 344
10
10
1.1464
写出回归方程: Y i 1.1464 0.0649 X i
11
为了计算方便,令:
S XX
(X
X )2
X 2
(X )2 n
SYY
(Y
Y )2
Y 2
(Y )2 n
S XY
( X
X() Y
Y
)
XY
X Y n
( X X )Y
(Y Y ) X
因变量(dependent) : 被解释变量。 记为 Y 自变量(independent) :解释变量。 记为 X
□ 相关分析(correlation) 研究变量之间关系的密切程度。
2
三、相关(回归)关系的分类
1.按相关(回归)的形式分为 □ 线性相关 □ 非线性相关
2.按涉及变量的数量分为
10
9
8
7
6
55
44
33
22
11
00 00
2200
4400
6600
8800
110000
112200
相关
回归
单相关
一元回归
复相关
多元回归
3
3.按变量之间相关程度分为
□ 完全相关 □ 不完全相关 □ 不相关
3 33 222
111
000
-3--33
-2--22
--1-11
000
11
2 22
3 33
--1-11
17
(2) β0的区间估计
① b0的抽样分布
b0
~
N ( 0 ,
X2 nS XX
2)
E(b0 ) E Y b1X E(Y ) 1X 0 1X 1X 0
D(b0) D(Y
b1X
)
n 2 n2
X 2 2 S XX
(1 X 2 ) 2 SXX nX 2 2
n SXX
2
1
0
-3
-2
-1
0
(Y1i
Y
)2
-1
-2
-3
变差关系示意图
(Yi Y )
3
28
即
Yi Y (Yi Yˆi ) (Yˆi Y )
将等式两侧平方后取和,可以得到:
(Yi Y )2 (Yi Yˆi )2 (Yˆi Y )2 2 (Yi Yˆi )(Yˆi Y )
其中:
p
(Y Yˆ)2
n p 1
SM2 SR Se2
总和
n-1 (Y Y )2
------
37
例[8.2] 假定保险公司希望确定居民住宅区火灾造 成的损失数额与该住户到最近的消防站的距离之 间的相关关系,以便准确地定出保险金额。下表 列出了16起火灾事故的损失及火灾发生的地点与 最近的消防站距离的数据。
SXX 372 .4 Se 0.1350
( X 0 X )2 (50 34.4)2 243 .30
(4.3914 0.2714 ) (4.1200 , 4.6628 )
23
②Y0的区间估计 偏差是个随机变量:
E(Y0 Yˆ0) E(Y0) E(Yˆ0) 0
D(Y0
Yˆ0
)
D(Y0
2 (Yi Yˆi )(Yˆi Y ) 2 [(Yi Y ) (Yˆi Y )](Yˆi Y ) 2 [(Yi Y ) b1(Xi X )](Yˆi Y ) 2 [(Yi Y )(Yˆi Y )] 2b12SXX 2 (Yi Y )b1( Xi X ) 2b12SXX 2b1b1SXX 2b12SXX 0
3.9773 < Y0 < 4.8055
意义:当工业总产值为500亿元时,货运总量在3.9773亿吨至 4.8055亿吨之间。概率保证为95%
26
③预测区间精度的影响因素
Y
0
t
(n
2)
Se
2
1
1 n
(
X
0X S XX
)2
Y
X 34.4
X
27
§8.3 一元线性回归的相关性检验
3
(Yi Y i )
即可得到:
(Yi Y )2 (Yi Y i )2 (Yi Y )2
29
一、检验相关系数
1决定系数的计算
作用:
R 2 (Yˆi Yi )2 (Yi Yi )2
□ 说明回归方程拟合的优良程度;
□ 比较不同回归方程之间的拟合差别。
30
相关系数----度量两个变量之间的线性关系
① 假设: H 0 : 1 0, H1 : 1 0
② 统计量: t
b1
S
2 e
~ t (n 2)
2
S XX
34
三、方差分析法 ( F 检验法)
① 假设:
H 0 : 1 0, H1 : 1 0
由F分布定义可知,假设成立时,统计量
(Yˆ Y )2
F
1
(Y Yˆ)2
n2
~ F (1, n 2)
Y 0 t (n 2) Se
2
1
1 n
(
X
0X
S XX
)2
25
根据【例8.1】数据计算,当工业总产值为500亿元时, 求实际估计值的置信区间。 1 a 0.95
将前面的数据带入置信区间公式中,
4.3914 2.306 0.1356
1
1 10
243.306 372.4
得:4.3914 - 0.2714 <Y0 < 4.3914 + 0.2714