经典线性回归模型自变量选择
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
§ 自变量选择
信息时代的一个重要特征是数据便宜信息值钱,我们经常要从海量数据中挖掘有用信息。比如影响产品质量的因素,从生产过程、员工培训过程到原材料供应过程,可能多达几百个,甚至上千个。对这些质量指标和影响因素制造商在日常生产管理过程中都有记录。现在的问题是如何从这众多的影响因素中找出影响产品质量的重要因素。有时只需判断一个自变量对因变量是否有重要影响,而不需要了解它们之间的精确定量关系。比如判断原材料供应对产品质量是否有重要影响比了解它们之间的精确定量关系更重要。线性回归模型的自变量选择就是用于有众多自变量时识别重要自变量的方法。用于线性回归模型自变量选择的方法可分为两类:全局择优法和逐步回归法。
一、全局择优法
全局择优法就是用衡量回归模型与数据拟合程度的准则,从全部可能的回归模型中选择对数据拟合最优的回归模型。对于一个包含P 个自变量的回归问题,全部
可能的回归模型有01
2P
P P
P P C C C +++=个,全局择优法要求出每个回归模型的准则
值,然后找出最优的回归模型。
回归模型对数据的拟合程度可用残差平方和来表示。残差平方和越小,模型拟合的越好。但残差平方和的大小与因变量的计量单位有关,因此我们定义了决定系数。决定系数越大,模型拟合的越好。决定系数不仅与因变量的计量单位无关,而且能说明在因变量的变异中,归功于自变量变化的部分所占比例。但不论是用残差平方和还是用决定系数来度量线性拟合模型拟合程度,都会得出模型中包含越多自变量拟合就越好的结论。但在样本容量给定的情况下,自变量越多,模型就越复杂,
模型参数估计就越不精确,导致模型应用的效果就越差。因此我们需要能综合用残差平方和表示的模型拟合精度和用模型中包含的自变量个数表示的模型复杂程度的准则,以便选择出最优的回归模型。回归分析中用于选择自变量的准则很多。由于残差平方和RSS p 和决定系数R 2只考虑模型拟合精度,因而只能作为自变量个数相
同时自变量选择的准则。残差均方s 2和修正决定系数2
adj R 是一个综合模型拟合精度
和模型复杂程度的准则。综合性准则除了残差均方和修正决定系数外,还有如下一些准则: ·Mallows C p 准则
)1(22
++-=
p n s
RSS C p p
其中,s 2为包含全部自变量的拟合模型的残差均方,RSS p 为当前拟合模型的残差平方和,p 为当前拟合模型的自变量个数。 ·信息准则
信息准则根据公式
npar *k +logLik *2-
计算,其中logLik= -n{log(RSS/n)+log(2π)+1}/2为当前拟合模型的对数似然函数,npar 为当前拟合模型的参数个数,当k=2时称为AIC 准则,当k=log(n)时称为BIC 准则。在小样本情况下,AIC 准则的表现不太好,为此人们提出的修正AIC 准则AICc ,其计算公式为
1
-npar -n n
npar
*2 +logLik *-2AICc =
()()1/1*2--++=napr n npar npar AIC
R 中计算当前拟合模型信息准则的函数有(其中fit 为当前拟合模型对象)
AIC(fit, k = 2) k=2(缺省)时计算)2(2)2log(1)log(++⎥⎦
⎤
⎢⎣⎡++=p n RSS n AIC p π
k= log(n)时计算)log()2()2log(1)log(
n p n RSS n BIC p
++⎥⎦
⎤
⎢⎣
⎡
++=π extractAIC(fit, scale, k = 2) 指定scale=s 2,计算当前拟合模型的C p 准则 不指定scale ,k=2(缺省)时计算)1(2)log(++=p n
RSS n AIC p
不指定scale ,k=log(n)时计算)log()1()log(
n p n
RSS n BIC p ++=
R 的附加程序包qpcR 中的函数AICc(fit)可计算当前拟合模型的修正信息准则
3)
2(2)2log(1)log(--++⎥⎦
⎤⎢⎣⎡++=p n n
p n RSS n AICc p π ·预测平方和准则
∑==n
i i e PRESS 12)(
其中,ii
i
i i i h e y
y e -=-=1ˆ)()(,表示删除第i 个案例后,用剩余的(n-1)个案例估计的拟合模型对第i 个案例的预测误差。R 的附加程序包qpcR 中的函数PRESS(fit)可计算预测平方和。此函数的返回值是一个列表,其中包含三个元素, (1) 名字为stat 的预测平方和; (2) 名字为residuals 的预测残差向量;
(3) 名字为的P 2,其计算公式为:()
∑∑==--
=n
i i
n
i i y y
e
P 1
2
1
2
)
(21
R 的的附加程序包leaps 中的函数leaps( )和regsubsets( )均可用来完成全局最优的选择。leaps( )依据C p 准则、修正R 2准则和R 2准则来选择全局最优回归模型;regsubsets( )函数则只能选出不同自变量个数的局部最优的模型,我们再从这些局部的最优模型中选出全局最优的模型。 例:高速公路事故数据
考虑汽车意外事故率(事故数/百万行车)与一些可能的相关之间的关系。数据包括1973年在明尼苏达州的39段高速公路。 ADT 以千计的平均是流量(估计) Trks 卡车容量在全部容量中的百分比 Lane 在两个方向上的交通车道总数 Acpt 路段中每英里的进入点 Sigs 路段中每英里信号交换数 Itg 路段中每英里的快车道类型交换数 Slim 时速限制(在1973年) Len 段的长度(英里) Lwid 道路宽度(英尺) Shld 道路的外侧路肩宽度
Hwy 公路类型的因子变量,0:州际高速公路、1:首要干道高速公路、2:主
干道高速公路、3:其它
Rate 1973年每百万公里行车的事故率
考虑log(Rate)对log(Len), log(ADT), log(Trks), log(Sigs1), Slim,
Shld,