12章多重线性回归与相关
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数的正相关是气温造成的假象,扣除气温影
响之后两者就不相关了。
同理,汽车与污染数据例中,控制三个自变量的 影响后才能真正看得出Y与另一个自变量的相关性。 一般地,控制其它变量的影响后,变量Y与X的相 关,称为变量Y与X的偏相关系数(partial correlation coefficient) 经计算,例12-1中空气中NO浓度与车流、气温、 气湿、风速相关的简单相关系数与偏相关系数见表 12-5
第十二章
第一节 第二节 第三节 第四节
多重线性回归与相关
多重线性回归的概念与统计描述 多重线性回归的假设检验 复相关系数与偏相关系数 自变量筛选
一、整体回归效应的假设检验(方差分析)
表12-2 检验回归方程整体意义的方差分析表
变异来源 回归模型
残差 总变异
SS
0.0639 6 0.0172 7 0.0812 3
表12-5 空气中NO浓度与各自变量的相关系数与偏相关系数
自变量 车流X1 相关系数 0.80800 偏相关系数 0.6920 偏相关系数P值 0.0005
气温X2
气湿X3 风速X4
0.1724
0.2754 -0.67957
0.47670
-0.00218 -0.59275
0.0289
0.9925 0.0046
200
ÀÀÀÀÀ(À)X1 ú À
3000
ÀÀ(0C)X3
R23=0.97617
2000
P=0.5509
扣除气温
ÓÓÓÓ Ó ÓÓÓÓ(Ó)X2
1000
r23=0.97617
0 28 30 32 34 36 38 40
ÀÀ(0C)X3
其实,冷饮销售量和气温正相关,游泳
人数和气温也正相关,冷饮销售量和游泳人
风速
(X4) 2.00 2.40 3.00 1.00 2.80 1.45 1.50 1.50 0.90 0.65 1.83 2.00
一氧化氮
(Y) 0.005 0.011 0.003 0.140 0.039 0.059 0.087 0.039 0.222 0.145 0.029 0.099
此型资料有一个应变量与多个自变量(k个自
1.假设
H 0 : 0, H1 : 0, 0.05
bi 0 tbi , 1 Sbi
2.检验统计量
利用软件包对例12-1的四个偏回归系数进行t
检验与标准化偏回归系数的结果如表13-3所示。
表12-3
变量
截距 X1 自由 度 1 1
偏回归系数t检验与标准化偏回归系数的结果
车流
(X1) 948 1440 1084 1844 1116 1656 1536 960 1784 1496 1060 1436
气温
(X2) 22.5 21.5 28.5 26.0 35.0 20.0 23.0 24.8 23.3 27.0 26.0 28.0
气湿
(X3) 69 79 59 73 92 83 57 67 83 65 58 687
空气中的一氧化氮(NO)的浓度,数据如表13-1所示
表12-1 空气中NO浓度与相关因素的监测数据
车流
(X1) 1300 1444 786 1652 1756 1754 1200 1500 1200 1476 1820 1436
气温
(X2) 20.0 23.0 26.5 23.0 29.5 30.0 22.5 21.8 27.0 27.0 22.0 28.0
回归平方和在总平方和中所占的百分比 R2=SS回/SS总 用于反映线性回归模型能在多大程度上解释反应变量Y 的变异性。
R2取值范围为0-1之间,越接近1,表示所选用线
性回归模型很好地拟合了样本数据。
R2直接反映了回归方程中所有自变量解释反应变
量Y总变异的百分比,或者说R2可以解释为回归方程使 反应变量Y的总变异减少的百分比。
df 4
19 23
MS 0.01599 0.000909 03
F
P
<0.00 17.59 1
SS回:在Y的总变异中由于X与Y的直线关系而使Y变异减 少的部分。SS回越大说明回归效果越好。 SS残:X对Y的线性影响之外的一切因素对Y的变异的作
用。SS残越小,说明直线回归的估计误差越小。
二、偏回归系数i的假设检验
第十二章
第一节 第二节 第三节 第四节
多重线性回归与相关
多重线性回归的概念与统计描述 多重线性回归的假设检验 复相关系数与偏相关系数 自变量筛选
一、自变量筛选的标准与原则
1.残差平方和缩小与确定系数增大 若某一个自变量被引入模型后,SS残缩小很多, 说明该变量对Y的作用大,可以被引入;反之,说 明其对Y的作用很小,不应被引入。 缺点:SS残的大小总是随着模型所含自变量个数 的增加而减少,故SS残变化准则只适用于比较具 有相同自变量个数的模型。
k 1 R2 2 R R 2 n k 1
对于本例,R2=0.7874,n=23,k=4,则调整R2为:
41 0.7874 R 0.7874 23 4 1 0.7874 0.0445789 0.7426
2
二、偏相关系数 表12-4 冷饮销售量、游泳人数与气温数据
3000
R12=0.97239
1200
R13=0.98909
1000
Ó ú ÓÓÓÓÓ(Ó)X1
ÓÓÓÓ Ó ÓÓÓÓ(Ó)X2
2000
800
600
1000
r12=0.97239
0 200 400 600 800 1000 1200
400
r13=0.9809
28 30 32 34 36 38 40
气湿
(X3) 80 57 64 84 72 76 69 77 58 65 83 68
风速
(X4) 0.45 0.50 1.50 0.40 0.90 0.80 1.80 0.60 1.70 0.65 0.40 2.00
一氧化氮
(Y) 0.066 0.076 0.001 0.170 0.156 0.120 0.040 0.120 0.100 0.126 0.135 0.099
时,回归的结果则是在三维以上空间的“超平面”,只能想象。
虽然多重回归参数估计的原理和方法与简单回归 分析相同,但是随着自变量个数的增加计算量变得相
当大,一般依靠软件包来完成。对于本例的数据,经
软件包计算可得回归方程:
Y 0.14166 0.00011619 X 1 0.0049 X 2 0.00000655 X 3 0.03468 X 4
Si
二、回归参数的估计
1.多元线性回归分析的前提条件:LINE
线性、独立、正态、等方差
2.多重线性回归分析方程的建立:最小二乘法的原理
使得因变量的观察值和估计值之间的离差平方和尽可能地小。 只有一个自变量时,回归的结果为二维平面上的一条直线;两
个自变量时,回归结果为三维空间的一个平面;有更多自变量
¨ ÓÓÓÓÓÓY
.02
ÀÀÀÀX1 ÷
ÀÀX2
.10 .08 .06 .04 .02
¨ ÀÀY
.10 .08 .06
¨ ÓÓÓÓÓÓY
ÓÓÓÓ¨Ó ÓÓÓÓÓÓY
.04 .02
0.00 -.02 -.04 -.06 -.08 -1.0
-10
0
10
20
30
-.5
0.0
.5
1.0
1.5
ÀÀX3
À ·ÀX4
第十二章 关
第一节 第二节 第三节 第四节
多重线性回归与相
多重线性回归的概念与统计描述 多重线性回归的假设检验 复相关系数与偏相关系数 自变量筛选
一、数据与模型
例12-1 为了研究空气中一氧化氮(NO)的浓度与汽车
流量等因素的关系,有人测定了某城市交通点在单
位时间内过往的汽车数、气温、空气湿度、风速及
气温、气湿与风速等四个变量的复相关系数为0.8837。
3.调整复相关系数(Adjusted R-Square) R2 当回归方程中包含有很多自变量,即使其中有一
些自变量对解释反应变量变异的贡献极小,随回归方
程自变量个数的增加,R2表现只增不减,这是复相关系 数的缺点。
调整复相关系数R2,定义为
.2
.08 .06
.04 .1
0.0
-.1 -600
0.00 -.02 -.04 -.06 -20
图12-3 汽车污染数据的反应变量与四个自变量的偏相关散点图
ÓÓÓÓ¨Ó ÓÓÓÓÓÓY
-400 -200 0 200 400
0.00 -.02
-.04 -.06 -6 -4 -2 0 2 4 6 8
变量)依存在关系,它的基本形式为
Y=0+1X1iຫໍສະໝຸດ Baidu2X2i+…kXki
0为回归方程的常数项,j为偏回归系数(PARTIAL
REGRESSION COEFFICIEBT)相应的由样本估计而得
的多重线性回归方程为:
ˆ Y b0 b1 X1 b2 X 2 ...bk X k
因为k个自变量都具有各自的计量单位及不同的变
异度,所以不能直接用普通偏回归系数的数值大小来反 映各个自变量对反应变量Y的贡献大小。将原始观测数 据进行标准化转换,即: X X *
Xi
i
i
然后用标准化数据进行回归模型拟合,此时所获得的回 归系数,记为P1,P2,P3,…,Pk,标准化偏回归系数 (standardized partial regression coefficient)又 称通径系数(path coefficient)。标准化偏回归系数Pi 较大的自变量在数值上对反应变量Y的贡献较大。
冷饮销 售量X1 267 397 451 528 618 655 游泳人 数X2 722 814 924 1066 1253 1369 气温 (0C) X3 29 30 31 32 33 34 冷饮销 售量X1 690 740 780 889 996 游泳人 数X2 1593 1761 1931 2231 2749 气温 (0C) X3 35 36 37 38 39
一、自变量筛选的标准与原则
3.Cp统计量
MS残p C p (n p 1) 2 1 p 1 若含有p个自变量的模型是合适的,则其残差
均方MS残p接近全部变量的均方,Cp接近p+1
二、自变量筛选的常用的方法
1.所有可能自变量子集选择
根据某种自变量选择准则,通过比较各子集
包含汽车流量、气温、气湿与风速这四个自变量的回
归方程可解释交通点空气NO浓度变异性的78.74%
2.复相关系数R (multiple correlation coefficient)
定义为确定系数的算术平方根,
R SS回 SS总
表示变量Y与k个自变量的线性相关的密切程度。 对本例R=0.8837,表示交通点空气NO浓度与汽车流量、
一、自变量筛选的标准与原则
2.残差均方缩小与调整决定系数增大 MS残=SS残/(n-p-1) MS残缩小的准则可以看做是在SS残缩小准则的基础上 增加了(n-p-1)-1因子,该因子随模型中自变量个数 p的增加而增加,体现了对模型中自变量个数增加而 施加的“惩罚”。 调整决定系数Ra2越大越好,与MS残等价。
0.27274
-0.00110 -0.4470
第十二章
第一节 第二节 第三节 第四节
多重线性回归与相关
多重线性回归的概念与统计描述 多重线性回归的假设检验 复相关系数与偏相关系数 自变量筛选
一、决定系数、复相关系数与调整确定系数
1.决定系数R2(coefficient
of determination),或确定系数
回归系数
-0.14166
标准误
0.06919
t值
P值
标准化偏回 归系数 0 0.59249
X2
X3 X4
1
1 1
0.054 2.05 6 0.0001161 0.0000274 0.000 4.23 9 8 5 0.028 0.00449 0.00190 2.36 9 0.0006908 0.992 0.0000065 3 0.01 5 5 0.004 -0.03468 0.01081 3.21 6
对总体确定系数R2=0的假设检验完全等价于对回 归方程的整体方差分析,因为
MS回 F MS残 SS残 SS回 k
2
R2
n k 1
1 R
k
n k 1
SS
对例12-1,由方差分析表可得:SS回=0.06396
残=0.01727
SS总=0.08123 R2=0.7874.由此说明,用
符合准则的程度,从中选择出一个或几个最优的
回归,称为“最优子集回归”。
适合于自变量个数不太多的情况
2.前进法(forward selection)又称为向前选择法