SAS第三十三课逐步回归分析演示教学
数学建模逐步回归PPT课件
教学评估问题
为评价教师教学质量,教学管理研究部门设计了一个教学评估表,共 有7项指标:
X1:课程内容的合理性; X2:问题展开的逻辑性; X3:回答问题的有效性; X4:课下交流的有助性; X5:教科书的帮助性; X6:考试评价的公正性; Y:对教师的总体评价
第4页/共22页
现按此指标体系对学生进行问卷调查,要求学生对12为教师的15门课程打分,得如下数据: 第5页/共22页
第10页/共22页
包含全部6个变量的回归: s te p w i se (X ,y, [1 ,2 , 3 , 4 , 5 ,6 ], 0 . 0 5 ) 结果:stepwise命令产生3个窗口:
第11页/共22页
1.Stepwise Table窗口:
给出回归系数及其置信区间,模型 统计量(剩余标准差,决定系数, F值,P值)
逐步回归方法的实现可利用Matlab软件中的统计软件包中的stepwise函数实现.
第9页/共22页
逐步回归函数stepwise用法:
stepwise(X,y) s te p w i se ( X , y,i nm o d e l ) s te p w i se ( X , y,i nm o d e l ,a l p ha )
样本资料阵X
4.4600 4.1100 3.5800 4.4200 4.6200 3.1800 2.4700 4.2900 4.4100 4.5900 4.5500 4.6700 3.7100 4.2800 4.2400
4.4200 3.8200 3.3100 4.3700 4.4700 3.8200 2.7900 3.9200 4.3600 4.3400 4.4500 4.6400 3.4100 4.4500 4.3800
自变量的选择与逐步回归实用回归分析ppt课件
§5.2 所有子集回归
准则2 赤池信息量AIC达到最小
设回归模型的似然函数为L(θ,x), θ的维数为p,x为样本,在 回归分析中样本为y=(y1,y2,…yn)′,则AIC定义为:
AIC=-2lnL(θˆ L ,x)+2p 其中θˆ L 是θ的极大似然估计,p 是未知参数的个数。
§5.2 所有子集回归
βˆ p (Xp X p )-1 Xpy
ˆ
2 p
n
1 p
1 SSEp
§5.1 自变量选择对估计和预测的影响
二、自变量选择对预测的影响
关于自变量选择对预测的影响可以分成两种情况: 第一种情况是全模型正确而误用了选模型; 第二种情况是选模型正确而误用了全模型式。
§5.1 自变量选择对估计和预测的影响
(一)全模型正确而误用选模型的情况
性质 1. 在 xj与 xp+1, …,xm的相关系数不全为 0 时,选模型回归系数的 最小二乘估计是全模型相应参数的有偏估计,即
E(ˆ jp ) jp j (j=1,2, …,p)。
§5.1 自变量选择对估计和预测的影响
(一)全模型正确而误用选模型的情况 性质 2. 选模型的的预测是有偏的。 给定新自变量值x0p (x01, x02,, x0m ) ,因变量新值为 y0=β0+β1x01+β2x02+…+βmx0m+ε0 用选模型的预测值为
(ˆ 0p ,ˆ 1p ,,ˆ pp )
全模型的最小二乘参数估计为βˆ m (ˆ 0m ,ˆ 1m ,,ˆ mm )
这条性质说明 D(ˆ jp ) D(ˆ jm ), j 0,1,, p 。
§5.1 自变量选择对估计和预测的影响
(一)全模型正确而误用选模型的情况
三、用SAS做回归分析
数学建模培训 徐雅静 08年7月
Ⅲ 用SAS做回归分析
在分析结果的Test for Distribution(分布检验)表中看到, p值大于0.05,不能拒绝原假设,表明可以接受误差正态 性的假定。
所以,模型
是合适的,用其对不良贷款进行预
测会更符合Y实ˆ 际0。.0331 x1
数学建模培训 徐雅静 08年7月
Ⅲ 用SAS做回归分析
2. 多元线性回归
引入数据集Mylib.BLDK中的所有4个自变量对不良贷款 建立多元线性回归。
(1) 分析步骤 在INSIGHT模块中打开数据集Mylib.BLDK。 1) 选择菜单“Analyze”→“Fit(Y X)(拟合)”,打开 “Fit(Y X)”对话框; 2) 在“Fit(Y X)”对话框中,选择变量Y,单击“Y”按钮, 将Y设为响应变量;选择变量x1、x2、x3、x4,单击“X”按钮, 将x1、x2、x3、x4设为自变量; 3) 单击“OK”按钮,得到分析结果。
数学建模培训 徐雅静 08年7月
Ⅲ 用SAS做回归分析
(3) 利用回归方程进行估计和预测 例如,要估计贷款余额为100亿元时,所有分行不良贷 款的平均值。 1) 回到数据窗口,点击数据表的底部,增加一个新行; 在第一个空行中,在x1列填入100,并按Enter键;
2) 自动计算出Y的预测值并将结果显示在P_Y列之中, 这样可以得到任意多个预测值。上图表明,贷款余额为 100亿元时,所有分行不良贷款的平均值约为2.96亿元。
SAS的相关与回归多元回归(正式)PPT课件
• 相关分析和回归分析是研究现象之间相关关系的 两种基本方法。所谓相关分析,就是用一个指标 来表明现象间相互依存关系的密切程度。
直线相关分析介绍
• 设有两个变量x和y,变量y随变量x一起变化,并 完全依赖于x,当变量x取某个数值时,y依确定 的关系取相应的值,则称y是x的函数,记为 y = f (x),其中x称为自变量,y称为因变量。各观 测点落在一条线上。
等级相关(秩相关)
• 按以下公式计算Spearman等级相关系数
6 d2
rs
1 n(n2
1)
• rs值界于-1与1之间,rs为正表示正相关,
rs为负表示负相关,rs为零表示为零相关。
样本等级相关系数rs是总体相关系数的估计
值。
例题
• 某省调查了1995年到1999年当地居民18 类死因的构成以及每种死因导致的潜在工 作损失年数WYPLL的构成。以死因构成为
相关系数
• 所谓相关分析,就是分析测定变量间相互依存关系的密 切程度的统计方法。一般可以借助相关系数来进行相关 分析。
• 相关系数是表示两个变量(X,Y)之间线性关系密切程 度的指标,用r表示,其值在-1至+1间。如两者呈正相 关,r呈正值,r=1时为完全正相关;如两者呈负相关则 r呈负值,而r=-1时为完全负相关。完全正相关或负相 关时,所有图点都在直线回归线上;点子的分布在直线 回归线上下越离散,r的绝对值越小。当例数相等时, 相关系数的绝对值越接近1,相关越密切;越接近于0, 相关越不密切。当r=0时,说明X和Y两个变量之间无直 线关系。
SAS 逐步回归 PPT课件
model语句选项(1)
选项 selection= best=
include=
maxstep= noint slentry= slstay=
功能和用法
指定模型选择的方法,可以是前进法(forward)、后退法(backward)、逐 步法(stepwise)等九种方法。
在模型选择方法为RSQUARE、ADJRSQ或CP时使用。当模型选择方法为 ADJRSQ或CP时,此选项用来指定最佳模型的最大个数;当模型选择方法为 RSQUARE时,此选项用来为每一种大小的模型指定其最佳模型的最大个数。 这些最佳模型将在结果中显示或输出到“outest=”选项所指定数据集中。 要求在变量筛选时必须将model语句中所列自变量中的前n个包括在模型中, 变量筛选过程仅在剩余的自变量中进行。当模型选择方法为NONE时此选项 无效。 须设置为正整数。在模型选择方法为FORWARD、BACKWARD或 STEPWISE时,用来指定进行变量筛选的最大步数。对于FORWARD或 BACKWARD方法,此选项的默认值为模型中所包含的自变量个数,而对于 STEPWISE方法,此默认值为上述默认值的三倍。
ridge须设置为一个非负数所组成的列表或单个数值以列表中的每一个数值作为岭常数k进行岭回归分析并将每一次岭回归分析所得的参数估计值输出到outest选项所指定的输出数据集中
SAS-逐步回归
南京医科大学流行病与卫生统计学系 柏建岭
1
reg过程
reg过程是专门用于回归分析的SAS过程,可提供绝大多数 常用的线性回归分析功能;
归模型。 forward(前进法)。
前进法以模型中没有变量开始,对每个自变量, forward计算反映自变量对模型的贡献的F 统计量。这些 F 统计量与model语句中给出的slentry=水平上的值相比 较,如果F 统计量的显著水平没有一个比slentry=水平上 (如果缺省slentry=这个参数,则显著水平假设为0.50) 的值大,则forward停止。否则,forward在模型中加入具 有最大F 统计量的变量,然后forward再计算这些变量的F 统计量直到剩下的变量都在模型的外面,再重复估计过 程。变量就这样一个接一个地进入模型直到剩下的变量 没有一个可以产生显著的F统计量。一旦一个变量进入 了模型,它就不再出去了。
(整理)SAS讲义第三十三课逐步回归分析.
第三十三课 逐步回归分析一、 逐步回归分析在一个多元线性回归模型中,并不是所有的自变量都与因变量有显著关系,有时有些自变量的作用可以忽略。
这就产生了怎样从大量可能有关的自变量中挑选出对因变量有显著影响的部分自变量的问题。
在可能自变量的整个集合有40到60个,甚至更多的自变量的那些情况下,使用“最优”子集算法可能并不行得通。
那么,逐步产生回归模型要含有的X 变量子集的自动搜索方法,可能是有效的。
逐步回归方法可能是应用最广泛的自动搜索方法。
这是在求适度“好”的自变量子集时,同所有可能回归的方法比较,为节省计算工作量而产生的。
本质上说,这种方法在每一步增加或剔除一个X 变量时,产生一系列回归模型。
增加或剔除一个X 变量的准则,可以等价地用误差平方和缩减量、偏相关系数或F 统计量来表示。
无疑选择自变量要靠有关专业知识,但是作为起参谋作用的数学工具,往往是不容轻视的。
通常在多元线性模型中,我们首先从有关专业角度选择有关的为数众多的因子,然后用数学方法从中选择适当的子集。
本节介绍的逐步回归法就是人们在实际问题中常用的,并且行之有效的方法。
逐步回归的基本思想是,将变量一个一个引入,引入变量的条件是偏回归平方和经检验是显著的,同时每引入一个新变量后,对已选入的变量要进行逐个检验,将不显著变量剔除,这样保证最后所得的变量子集中的所有变量都是显著的。
这样经若干步以后便得“最优”变量子集。
逐步回归是这样一种方法,使用它时每一步只有一个单独的回归因子引进或从当前的回归模型中剔除。
Efroymoson (1966)编的程序中,有两个F 水平,记作F in 和F out ,在每一步时,只有一个回归因子,比如说X i ,如果剔除它可能引起RSS 的减少不超过残差均方MSE (即ESS/(N-k-1))的F out 倍,则将它剔除;这就是在当前的回归模型中,用来检验 βi =0的F 比=MSE x x x RSS x x x x RSS i i i /)),,(),,,((121121---ΛΛ是小于或等于F out 。
SAS第三十三课逐步回归分析
第三十三课 逐步回归分析一、 逐步回归分析在一个多元线性回归模型中,并不是所有的自变量都与因变量有显著关系,有时有些自变量的作用可以忽略。
这就产生了怎样从大量可能有关的自变量中挑选出对因变量有显著影响的部分自变量的问题。
在可能自变量的整个集合有40到60个,甚至更多的自变量的那些情况下,使用“最优”子集算法可能并不行得通。
那么,逐步产生回归模型要含有的X 变量子集的自动搜索方法,可能是有效的。
逐步回归方法可能是应用最广泛的自动搜索方法。
这是在求适度“好”的自变量子集时,同所有可能回归的方法比较,为节省计算工作量而产生的。
本质上说,这种方法在每一步增加或剔除一个X 变量时,产生一系列回归模型。
增加或剔除一个X 变量的准则,可以等价地用误差平方和缩减量、偏相关系数或F 统计量来表示。
无疑选择自变量要靠有关专业知识,但是作为起参谋作用的数学工具,往往是不容轻视的。
通常在多元线性模型中,我们首先从有关专业角度选择有关的为数众多的因子,然后用数学方法从中选择适当的子集。
本节介绍的逐步回归法就是人们在实际问题中常用的,并且行之有效的方法。
逐步回归的基本思想是,将变量一个一个引入,引入变量的条件是偏回归平方和经检验是显著的,同时每引入一个新变量后,对已选入的变量要进行逐个检验,将不显著变量剔除,这样保证最后所得的变量子集中的所有变量都是显著的。
这样经若干步以后便得“最优”变量子集。
逐步回归是这样一种方法,使用它时每一步只有一个单独的回归因子引进或从当前的回归模型中剔除。
Efroymoson (1966)编的程序中,有两个F 水平,记作F in 和F out ,在每一步时,只有一个回归因子,比如说X i ,如果剔除它可能引起RSS 的减少不超过残差均方MSE (即ESS/(N-k-1))的F out 倍,则将它剔除;这就是在当前的回归模型中,用来检验 βi =0的F 比=MSE x x x RSS x x x x RSS i i i /)),,(),,,((121121--- 是小于或等于F out 。
回归分析多元逐步回归
多元回归模型首先将实际问题所提取的全部变量引 入方程,然后再根据变量的显著性检验把方程中不重 要的变量逐一剔除,建立新方程。
缺点:(1)首先在实际问题中,要提取合 适的变量来建立回归方程本身不是一件很容易 的事情,变量间可能存在高度的相互依赖性会 给回归系数的估计带来不合理的解释;
有更大的回归平方和。
§2.5.1 逐步回归算法的形成思路
如此继续下去,假设已经进行到 l 1 步,那第 l 步
是在未选的变量中选出这样一个变量,它与已选入回 归方程的变量组成 元回归方程,比其他余下的任何
一个变量组成的l 元回归方程,有更大的回归平方和。
逐步回归不仅考虑到按贡献大小逐一挑选重要变量, 而且还考虑到较早选入回归方程的某些变量,有可能 随着其后一些变量的选入而失去原有的重要性,这样 的变量也应当及时从回归方程中剔除,使回归方程中 始终只保留重要的变量。
计量
F2i
Vi ( x1 , x2 ,, xl ) / 1 Q( x1,, xl ) /(n l 1)
~
F (1, n l 1)
i 1,2,, l
来检验方程中哪个自变量 可被考虑剔除出方程。
F
对于给定的水平 ,查 分布表得临界
值F (1, n l 1) F出 。 如果F2i F出 ,则 xi 应从方程中剔除; 如果 F2i F出 ,则 xi 不应从方程中剔除。 同样需要说明的是,实际问题可能有多个
(2)其次变量的一次性引入方程,易导致计 算量增大,运算效率降低,精度不够等问题。
§ 2.5 多元逐步回归算法原理
为了得到一个稳健的、可靠的回归模 型,这就需要给出一种方法,使得能从 影响 y 的因素中自动根据某种准则将y 对
SAS第三十三课逐步回归分析
第三十三课逐步回归分析逐步回归分析在一个多元线性回归模型中,并不是所有的自变量都与因变量有显著关系,有时有些自变量的作用可以忽略。
这就产生了怎样从大量可能有关的自变量中挑选出对因变量有显著影响的部分自变量的问题。
在可能自变量的整个集合有40到60个,甚至更多的自变量的那些情况下,使用“最优” 子集算法可能并不行得通。
那么,逐步产生回归模型要含有的X 变量子集的自动搜索方法,可能是有效的。
逐步回归方法可能是应用最广泛的自动搜索方法。
这是在求适度“好”的自变量子集时,同所有可能回归的方法比较,为节省计算工作量而产生的。
本质上说,这种方法在每一步增加或剔除一个X 变量时,产生一系列回归模型。
增加或剔除一个X 变量的准则,可以等价地用误差平方和缩减量、偏相关系数或F 统计量来表示。
无疑选择自变量要靠有关专业知识,但是作为起参谋作用的数学工具,往往是不容轻视的。
通常在多元线性模型中,我们首先从有关专业角度选择有关的为数众多的因子,然后用数学方法从中选择适当的子集。
本节介绍的逐步回归法就是人们在实际问题中常用的,并且行之有效的方法。
逐步回归的基本思想是,将变量一个一个引入,引入变量的条件是偏回归平方和经检验是显著的,同时每引入一个新变量后,对已选入的变量要进行逐个检验,将不显著变量剔除,这样保证最后所得的变量子集中的所有变量都是显著的。
这样经若干步以后便得“最优”变量子集。
逐步回归是这样一种方法,使用它时每一步只有一个单独的回归因子引进或从当前的回归模型中剔除。
Efroymoson (1966)编的程序中,有两个F水平,记作F in和F out,在每一步时,只有一个回归因子,比如说X i,如果剔除它可能引起RSS 的减少不超过残差均方MSE(即ESS/(N-k-1))的F out倍,则将它剔除;这就是在当前的回归模型中,用来检验i=0 的F 比= (RSS(x1, x2 , x i 1,x i) RSS(x1,x2, x i 1)) / MSE是小于或等于F out。
回归分析及其SAS过程ppt课件
此要事先规定显著水平。
上页 下页 返回
格式语句: MODEL 因变量=自变量1 自变量2 ⋯ / selection= Forword slentry=; 在“slentry=”中可按自己需要选择不同显著水平, 如 0.1,0.2 等,若不指定此选项,则显著水平为 0.5 ;
上页
下页
返回
2. Backword:后退法
后退法先建立包含全部自变量的回归模型,然 后按一定的显著水平,从模型中逐个剔除对模型影
响的显著水平小于选定值的变量。
格式语句:MODEL 因变量=自变量1 自变量2 ⋯
/
selection= Backword slstay =; 用slstay =来指定显著水平。若不指定此选项, 默认显著水平为 0.1 ;
上页 下页 返回
1)建立一般线性回归模型,包括简单回归、多 重线性回归、多项式回归及加权回归; 2) 进行方差分析。 3. NLIN 借助于迭代法对用户自行选定的回归表达式
拟合非线性回归模型。
4. RSREG 建立二次响应面回归模型,并对之进行分析以确定
最优响应因子水平,还可进行岭回归分析.
上页 下页 返回
上页 下页 返回
逐步法一般要规定两个显著水平,即选入水平
及剔除水平,且应规定剔除水平低于选入水平,否
则将导致无一变量被选进方程的结局。
格式语句: MODEL 因变量=自变量1 自变量2 ⋯ /
selection= stepwise slentry= slstay=; 在“slentry= ”后和 “slstay=”后分别表上自己选 定的显著水平,缺省值为0.15。
逐步回归分析计算法
前面我们介绍了通过回归的基本思想是将变量逐一引入回归方程,先建立与y相关最密切的一元线性回归方程,然后再找出第二个变量,建立二元线性回归方程,…。
在每一步中都要对引入变量的显著性作检验,仅当其显著时才引入,而每引入一个新变量后,对前面已引进的变量又要逐一检验,一旦发现某变量变得不显著了,就要将它剔除。
这些步骤反复进行,直到引入的变量都是显著的而没有引入的变量都是不显著的时,就结束挑选变量的工作,利用所选变量建立多元线性回归方程。
为实现上述思想,我们必须在解方程组的同时,求出其系数矩阵的逆矩阵。
为节约内存,计算过程中在消去x k时用了如下变换公式——求解求逆紧凑变换。
一、求解求逆紧凑变换求解求逆紧凑变换记作L k,其基本变换关系式为:(2-3-30) 当对(2-3-27)的增广矩阵(2-3-31)依次作L1,L2,…,L m-1变换后,所得矩阵的前m-1列,便是系数矩阵的逆矩阵,最后一列便是(2-3-27)的解,即求解求逆紧凑变换具有以下性质:(1) 若对作了L k1, L k2,…,L k L变换,则得如下子方程组(2-3-32)的解及相应的系数矩阵的逆矩阵,其中k1,k2,…,k l互不相同,若记L k1L k2…L k l,则(2-3-33),j=1,2,…,l(2) L i L j=L j L i,即求解求逆紧凑变换结果与变换顺序无关。
(3) L k L k=(4) 若,ij=1,2,…,m-1,记L k1L k2…L k l则中的元素具有以下性质:式中上行为对作了变换L i,L j或两个变换均未作过;下行为对作过变换L i和L j之一。
二、逐步回归的计算过程逐步回归计算过程就是反复对增广矩阵作L k变换,并利用变换性质将选变量与作检验等步骤结合起来。
为了检验方便,对再增加一行,使其变成对称方阵,并记作R(0),即(2-3-34)选变量具体步骤如下:1.选第一个变量选第一个变量就是从m-1个一元线性回归方程(i=1,2,…,m-1) (2-3-35)中找一个回归平方和最大的方程。
SAS学习系列23.多元线性回归
23. 多元线性回归一、多元线性回归1. 模型为Y=0+1X1+…+ N X N+ε其中X1, …, X N是自变量,Y是因变量,0, 1…, N是待求的未知参数,ε是随机误差项(残差),若记多元线性回归模型可写为矩阵形式:Y=Xβ+ε通常要求:矩阵X的秩为k+1(保证不出现共线性), 且k<N; ε为正态分布,E(ε)=0和E(εε’)=2I错误!未定义书签。
,其中I为N×N 单位矩阵。
用最小二乘法原理,令残差平方和最小,得到为β的最佳线性无偏估计量(高斯-马尔可夫定理)。
2. 2的估计和T检验选取2的估计量:则假如t值的绝对值相当大,就可以在适当选定的置信水平上否定原假设,参数的1-α置信区间可由下式得出:其中tα/2为与α%显著水平有关的t分布临界值。
3. R2和F检验若因变量不具有0平均值,则必须对R2做如下改进:随着模型中增添新的变量,R2的值必定会增大,为了去掉这种增大的干扰,还需要对R 2进行修正(校正拟合优度对自由度的依赖关系):22/(1)111(1)/(1)1ESS N k N R R TSS N N k ---=-=-----做假设检验:H 0: 1=…= N =0; H 1: 1…, N 至少有一个≠0; 使用F 统计量做检验,若F 值较大,则否定原假设。
二、PROC REG 过程步基本语法:PROC REG data = 数据集;MODEL 因变量 = 自变量列表 </可选项>; < restrict 自变量的等式约束;>说明:MODEL 语句用来指定因变量和自变量;restrict 语句示例:restrict a1+a2=1;常用的输出可选项:STB ——输出标准化偏回归系数矩阵 CORRB ——输出参数估计矩阵COLLINOINT ——对自变量进行共线性分析P ——输出个体观测值、预测值及残差 (R/CLM/CLI 包含P )R——输出每个个体观测值、残差及标准误差CLM——输出因变量均值95%的置信界限的上下限CLI——对各预测值输出95%的置信界限的上下限MSE——要求输出随机扰动项方差2的估计2ˆ与残差分析有关的可选项VIF——输出变量间相关性的方差膨胀系数,VIF越大,说明由于共线性存在,使方差变大;——输出条件数,它表示最大的特征值与每个自变量特征值之比的平方根。
第三讲、用SAS作回归分析ppt课件
2.也会增加参数估计的方差 3.产生不稳定的模型 只有拟合多元回归才会发生这一问题 18 共线性的诊断可使用方差膨胀因子、条件
回归诊断
共线性诊断-VIF
方差膨胀因子(VIF)是对由于共线性而引
起的参数估计量的方差增加的一个相对
度 量VIFr
对一个观测值其 Cook D 统计量的值超 过 4/n 时(n为样本容量),这个观测存在 反常效应,
其中4/n只是经验,没有统一的标准。
13
回归诊断
识别有影响的观测
Dffitsi 度量第i 个观测对预测值的影响
Dffits
i
Yˆi Yˆ(i) s(Yˆi )
| Dffits i | ? 2 p / n
selection=stepwise
slentry=0.05
slstay=0.05
details;
RUN;
5
4、回归诊断
例外值(outliers)或异常作用点的检查 从已拟合回归的数据中分析线性模型的假
定是否被破坏:
应变量的均值是否是独立变量的线性函数, 是否 需要对变量进行变换或拟合roc reg data=e4; model y1=x1-x4/influence r; run; 其中选项influence 同上一页。R主要给
出Cook-distance.前面已有。
17
六、共线性诊断
共线性(collinearity, multicollinearity)问题 是指 独立变量间存在线性关系
RUN;
Std Err Predict 余差标准差
Student Residual student化的余差
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
S A S第三十三课逐步回归分析第三十三课逐步回归分析一、 逐步回归分析 在一个多元线性回归模型中,并不是所有的自变量都与因变量有显著关系,有时有些自变量的作用可以忽略。
这就产生了怎样从大量可能有关的自变量中挑选出对因变量有显著影响的部分自变量的问题。
在可能自变量的整个集合有40到60个,甚至更多的自变量的那些情况下,使用“最优”子集算法可能并不行得通。
那么,逐步产生回归模型要含有的X 变量子集的自动搜索方法,可能是有效的。
逐步回归方法可能是应用最广泛的自动搜索方法。
这是在求适度“好”的自变量子集时,同所有可能回归的方法比较,为节省计算工作量而产生的。
本质上说,这种方法在每一步增加或剔除一个X 变量时,产生一系列回归模型。
增加或剔除一个X 变量的准则,可以等价地用误差平方和缩减量、偏相关系数或F 统计量来表示。
无疑选择自变量要靠有关专业知识,但是作为起参谋作用的数学工具,往往是不容轻视的。
通常在多元线性模型中,我们首先从有关专业角度选择有关的为数众多的因子,然后用数学方法从中选择适当的子集。
本节介绍的逐步回归法就是人们在实际问题中常用的,并且行之有效的方法。
逐步回归的基本思想是,将变量一个一个引入,引入变量的条件是偏回归平方和经检验是显著的,同时每引入一个新变量后,对已选入的变量要进行逐个检验,将不显著变量剔除,这样保证最后所得的变量子集中的所有变量都是显著的。
这样经若干步以后便得“最优”变量子集。
逐步回归是这样一种方法,使用它时每一步只有一个单独的回归因子引进或从当前的回归模型中剔除。
Efroymoson (1966)编的程序中,有两个F 水平,记作F in 和F out ,在每一步时,只有一个回归因子,比如说X i ,如果剔除它可能引起RSS 的减少不超过残差均方MSE (即ESS/(N-k-1))的F out 倍,则将它剔除;这就是在当前的回归模型中,用来检验 βi =0的F 比=MSE x x x RSS x x x x RSS i i i /)),,(),,,((121121--- 是小于或等于F out 。
若剔除的变量需要选择,则就选择使RSS 减少最少的那一个(或等价的选择F 比最小的)。
用这种方式如果没有变量被剔除,则开始引进一个回归因子,比如X j ,如果引进它后使RSS 的增加,至少是残差均方的F in 倍,则将它引进。
即若在当前模型加X j 项后,为了检验 βj =0的F 比,F ≥F in 时,则引进X j ,其次,若引进的变量需要选择,则选择F 比最大的。
程序按照上面的步骤开始拟合,当没有回归因子能够引进模型时,该过程停止。
二、 变量选择的方法若在回归方程中增加自变量X i ,称为“引入”变量X i ,将已在回归方程中的自变量X j 从回归方程中删除,则称为“剔除”变量X j 。
无论引入变量或剔除变量,都要利用F 检验,将显著的变量引入回归方程,而将不显著的从回归方程中剔除。
记引入变量F 检验的临界值为F in (进),剔除变量F 检验的临界值为F out (出),一般取F in ≥F out ,它的确定原则一般是对k 个自变量的m 个(m ≤k ),则对显著性水平df 1=1,df 2=1--m N 的F 分布表的值,记为F *,则取F in =F out = F *。
一般来说也可以直接取F in =F out =2.0或2.5。
当然,为了回归方程中还能够多进入一些自变量,甚至也可以取为1.0或1.5。
1. 变量增加法首先对全部k 个自变量,分别对因变量Y 建立一元回归方程,并分别计算这k 个一元回归方程的k 个回归系数F 检验值,记为{11211,,k F F F },选其最大的记为1i F =max{11211,,k F F F },若有1i F ≥ F in ,则首先将X 1引入回归方程,不失一般性,设X i 就是X 1。
接着考虑X 1分别与X 2,X 3,...,X k 与因变量Y 二元回归方程,对于这k -1个回归方程中X 2,...,X k 的回归系数进行F 检验,计算得的F 值,并选其最大的F 值2j F ,若2j F ≥F in ,则接着就将X j 引入回归方程,不失一般性,设X j 就是X 2。
对已经引入回归方程的变量X 1和X 2,如同前面的方法做下去,直至所有末被引入方程的变量的F 值均小于F in 时为止。
这时的回归方程就是最终选定的回归方程。
显然,这种增加法有一定的缺点,主要是,它不能反映后来变化的情况。
因为对于某个自变量,它可能开始是显著的,即将其引入到回归方程,但是,随着以后其他自变量的引入,它也可能又变为不显著的了,但是,也并没有将其及时从回归方程中剔除掉。
也就是增加变量法,只考虑引入而不考虑剔除。
2. 变量减少法与变量增加法相反,变量减少法是首先建立全部自变量X 1,X 2,...,X k 对因变变量Y 的回归方程,然后对k 个回归系数进行F 检验,记求得的F 值为{11211,,k F F F },选其最小的记为1i F =min{11211,,k F F F },若有1i F ≤F out ,则可以考虑将自变量X i 从回归方程中剔除掉,不妨设X i 就取为X 1。
再对X 2,X 3,...,X k 对因变量Y 建立的回归方程中重复上述过程,取最小的F 值为2j F ,若有2j F ≤F out ,则将X j 也从回归方程中剔除掉。
不妨设X j 就是X 2。
重复前面的做法,直至在回归方程中的自变量F 检验值均大于F out ,即没有变量可剔除为止。
这时的回归方程就是最终的回归方程。
这种减少法也有一个明显的缺点,就是一开始把全部变量都引入回归方程,这样计算量比较大。
若对一些不重要的变量,一开始就不引入,这样就可以减少一些计算。
3. 变量增减法前面的二种方法各有其特点,若自变量X 1,X 2,...,X k 完全是独立的,则可结合这二种方法,但是,在实际的数据中,自变量X 1,X 2,...,X k 之间往往并不是独立的,而是有一定的相关性存在的,这就会使得随着回归方程中变量的增加和减少,某些自变量对回归方程的贡献也会发生变化。
因此一种很自然的想法是将前二种方法综合起来,也就是对每一个自变量,随着其对回归方程贡献的变化,它随时可能被引入回归方程或被剔除出去,最终的回归模型是在回归方程中的自变量均为显著的,不在回归方程中的自变量均不显著。
三、 引入变量和剔除变量的依据如果在某一步时,已有l 个变量被引入到回归方程中,不妨设为l X X X ,,,21 ,即已得回归方程ll X X X Y ββββ++++= 22110ˆ (33.1)并且有平方和分解式 ESS RSS TSS += (33.2)显然,回归平方和RSS 及残差平方和ESS 均与引入的变量相关。
为了使其意义更清楚起见,将其分别设为RSS (l X X X ,,,21 )及ESS (l X X X ,,,21 )。
下面我们来考虑,又有一个变量i X (l<i ≤k )被引入回归方程中,这时对于新的回归方程所对应的平方和分解式为TSS = RSS (l X X X ,,,21 ,i X )+ ESS (l X X X ,,,21 , i X ) (33.3) 当变量X i 引入后,回归平方和从RSS (l X X X ,,,21 )增加到RSS (l X X X ,,,21 ,i X ),而相应的残差平方和却从ESS (l X X X ,,,21 )降到ESS (l X X X ,,,21 , i X ),并有RSS (l X X X ,,,21 , i X )-RSS (l X X X ,,,21 )= ESS (l X X X ,,,21 )-ESS (l X X X ,,,21 , i X ) (33.4) 记),,,(),,,,(2121l i l i X X X RSS X X X X RSS W -=,它反映了由于引入i X 后,i X 对回归平方和的贡献,也等价于引入i X 后残差平方和所减少的量,称其为i X 对因变量Y 的方差贡献,故考虑检验统计量()()()1/,,,,,,,2121--=l N X X X X ESS X X X W F i l l i i (33.5)其中N 为样本量,l 是已引入回归方程的变量个数,这时若有in i F F ≥,则可以考虑将自变量i X 引入回归方程,否则不能引入。
实际上大于F in 的变量开始时可能同时有几个,那么是否将它们都全部引入呢?实际编程序时并不是一起全部引入,而是选其最大的一个引入回归方程。
关于剔除变量,如果已有l 个变量被引入回归方程,不失一般性,设其为l X X X ,,,21 ,所对应的平方和分解公式为:),,,,(),,,,,(2121l i l i X X X X ESS X X X X RSS TSS += (33.6) 其中l i ,,2,1 =为了研究每个变量在回归方程中的作用,我们来考虑分别删掉X i (i =1,2,...,l 后相应的平方和分解公式为:),,,,,(),,,,(11211121l i i l i i X X X X X ESS X X X X X RSS TSS +-+-+= (33.7) 这时,回归平方和从),,,,,(21l i X X X X RSS 降为),,,,(1121l i i X X X X X RSS +-,同时残差也发生相应的变化。
残差平方和从),,,,(21l i X X X X ESS 增加到),,,,,(1121l i i X X X X X ESS +-,i X 对回归平方和的贡献,也等价于删除i X 后残差平方和所增加的量,同理可表示为:),,,,(),,,,(),,,,(),,,,(211121112121l i l i i l i i l i i X X X X ESS X X X X X ESS X X X X X RSS X X X X RSS W -=-=+-+- (33.8) 与前同理,我们来构造检验统计量()()()1/,,,,,,,,,2121--=l N X X X X ESS X X X X W F l i l i i i (33.9)显然,这时F i 越小,则说明i X 在回归方程中起的作用(对回归方程的贡献)越小,也就是若有out i F F ≤,则可以考虑将自变量i X 从回归方程中剔除掉,我们在编程序时,每次只剔除一个,因此,我们每次选择最小的),,,min(21l i F F F F =来与out F 进行比较。
若有out i F F >则可以不考虑剔除,而开始考虑引入。